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Vj 24 MEH (Web Crawler) 是 指 一 类 能 够 自动 化 访问 网 络 并 抓 取 某 些 信息 的 程序 ， 
有 时 候 也 被 称 为 网络 机 器 人 ”。 它 们 被 广泛 用 于 互联 网 搜索 引擎 及 各 种 网 站 的 开发 
中 ,同时 也 是 大 数据 和 数据 分 析 领 域 中 的 重要 角色 。 疏 虫 可 以 按 一 定 的 逻辑 大 批量 
采集 目标 页 面 内 容 , 并 对 数据 做 进一步 处 理 , 人 们 借 此 能 够 更 好 、 更 快 地 获得 并 使 用 
他 们 感 兴趣 的 信息 ,从 而 方便 地 完成 很 多 有 价值 的 工作 。 

Python 是 一 种 解释 型 .面向 对 象 的 .动态 数据 类 型 的 高 级 程序 设计 语言 ,Python 
语法 简洁 、 功 能 强大 ,在 众多 高 级 语言 中 拥有 十 分 出 色 的 编写 效率 ,同时 还 拥有 活跃 
的 开源 社区 和 海量 程序 库 ,十 分 适合 进行 网 络 内 容 的 抓 取 和 处 理 。 本 书 将 以 Python 
语言 为 基础 ,由 浅 入 深 地 探讨 网 络 疏 虫 技术 ,同时 通过 具体 的 程序 编写 和 实践 来 帮助 
读者 了 解 和 学 习 Python fé: 

本 书 共 分 为 14 章 , 其 中 第 1 一 3 章 为 基础 篇 ,第 4 一 6 章 为 进 阶 篇 ,第 7 一 9 章 为 高 
级 篇 ,第 10 一 14 章 为 实践 篇 ,最 后 为 附录 。 第 1 章 、 第 2 章 介 绍 了 Python 语言 和 编 
写 疏 虫 程序 的 基础 知识 ; 第 3 章 讨 论 了 Python 中 对 文件 和 数据 的 存储 ,涉及 数据 库 
的 相关 知识 ; 第 4 章 \. 第 5 章 的 内 容 针对 相对 复杂 一 些 的 聆 虫 抓 取 任 务 ,主要 着 眼 于 
动态 内 容 和 表单 登录 等 方面 ; 第 6 章 涉及 对 抓 取 到 的 原始 数据 的 深入 处 理 和 分 析 ; 
第 7 一 9 章 旨 在 从 不 同 视角 讨论 疏 虫 程序 ,基于 疏 虫 介绍 了 多 个 不 同 主题 的 内 容 ; 第 
10—14 章 通 过 一 些 实际 的 例子 深入 讨论 候 虫 编程 的 理论 知识 ; 最 后 在 附录 中 介绍 了 
Python 语言 和 疏 虫 编程 中 常用 的 知识 和 工具 。 

本 书 的 主要 特点 如 下 。 

。 内 容 全 面 , 结 构 清 晰 。 本 书 详细 介绍 了 网 络 怜 虫 技术 的 方方面面 ,讨论 了 数 

据 抓 取 、 数 据 处 理 和 数据 分 析 的 整个 流程 。 全 书 结构 清晰 ,坚持 理论 知识 与 
实践 操作 相 结合 。 

。 循序 渐进 ,生动 简洁 。 本 书 从 最 简单 的 Python 程序 示例 开始 ,在 网 络 怜 虫 的 

核心 主题 之 下 一 步 步 深 入 ,兼顾 内 容 的 广度 与 深度 ,在 内 容 编写 上 使 用 生动 
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简洁 的 阐述 方式 ,力争 详 略 得 当 。 
示例 丰富 ,实战 性 强 。 网 络 爬 虫 是 实践 性 、 操 作 性 非常 强 的 技术 ,本 书 将 提供 
丰富 的 代码 作为 读者 的 参考 ,同时 对 必要 的 术语 和 代码 进行 解释 。 本 书 从 生 
活 实 际 出 发 ,选取 实用 性 ,趣味 性 兼 具 的 主题 进行 网 络 爬 虫 实践 。 
。 内 容 新 颖 ,不 落 案 白 。 本 书 中 的 程序 代码 均 采用 最 新 的 Python 3 版 本 ,并 使 
用 了 目前 主流 的 各 种 Python 框架 和 库 来 编写 程序 ,注重 内 容 的 先进 性 。 学 
习 网 络 怜 虫 需要 动手 实践 才能 真正 理解 ,本 书 最 大 限度 地 保证 了 代码 与 程序 
示例 的 易 用 性 和 易 读 性 。 
本 书 在 第 10 一 14 章 , 针 对 5 个 疏 虫 实践 , 配 有 微 课 视频 讲解 ,以 方便 读者 更 好 地 
理解 Python 怜 虫 相关 的 理论 和 实践 知识 。 
本 书 的 编者 为 吕 云 翔 .张扬 , 曾 洪 立 参与 了 部 分 内 容 的 编写 及 资料 整理 工作 。 
由 于 编者 的 水 平 有 限 , 书 中 的 不 足 在 所 难免 ,县 请 广大 读者 批评 指正 。 


编 者 
2019 年 1 月 
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Fe 45 He (Web Crawler) 有 时 候 也 叫 网 络 蜘蛛 (Web Spider) ,是 指 这 样 一 类 程 
序 一 一 它们 可 以 自动 连接 到 互联 网 站 点 , 读 取 网 页 中 的 内 容 或 者 存放 在 网 络 上 的 各 
种 信息 ,并 按照 某 种 策略 对 目标 信息 进行 采集 (例如 对 某 个 网 站 的 全 部 页 面 进行 读 
取 )。 实 际 上 ,世界 上 最 大 的 搜索 网 站 一 一 Google 搜索 本 身 就 建构 在 候 虫 技术 之 上 ， 
像 Google、 百 度 这 样 的 搜索 引擎 会 通过 候 虫 程序 来 不 断 更 新 自身 的 网 站 内 容 和 对 其 
他 网 站 的 网 络 索引 。 从 某 种 意义 上 说 ,用 户 每 次 通过 搜索 引擎 查询 一 个 关键 词 , 就 是 
在 搜索 引擎 服务 者 的 息 虫 程序 所 “ 候 ”" 到 的 信息 中 进行 查询 。 当 然 , 搜 索引 擎 背后 所 
使 用 的 技术 十 分 复杂 ,其 息 虫 技术 通常 也 不 是 一 般 个 人 开发 的 小 型 程序 所 能 比拟 的 。 
其 实 , 疏 虫 程序 本 身 并 不 复杂 ,用 户 只 要 懂 一 点 编程 知识 ,了 解 一 点 HTTP 和 
HTML. ,就 可 以 写 出 属于 自己 的 疏 虫 ,实现 很 多 有 意思 的 功能 。 

在 众多 编程 语言 中 ,本 书 选择 Python 2f i3 fe t FEF . [4 Python 不 仅 语法 简 
洁 、 便 于 上 手 ,而且 拥 有 庞大 的 开发 者 社区 和 浩如烟海 的 模块 库 , 对 于 普通 的 程序 编 
写 而 言 有 极 大 的 便利 。 虽然 Python 和 C/C++ 等 语言 相 比 可 能 在 性 能 上 有 所 欠缺 ,但 
毕 竞 瑕 不 掩 瑜 ,是 目前 最 好 的 选择 。 
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1.1 Python 语言 


Python 是 目前 最 流行 的 编程 语言 之 一 ,本 书 对 它 的 历史 和 发 展 作 一 些 简单 介 
绍 ,然后 看 看 Python 的 基本 语法 ,对 于 没有 Python 编程 经 验 的 读者 而 言 , 可 以 借 此 
对 Python 有 一 个 初步 的 了 解 。 


1.1.1 什么 是 Python 


Guido van Rossum 在 1989 年 发 明了 Python ,而 Python 的 第 一 个 公开 发 行 版 发 
行 于 1991 年 。 因 为 Guido 是 电视 剧 Monty Python's Flying Circus 的 爱好 者 ,所 以 
将 这 种 新 的 脚本 语言 命名 为 Python。 

从 最 根本 的 角度 来 说 ,Python 是 一 种 解释 型 .面向 对 象 的 ,动态 数据 类 型 的 高 级 
程序 设计 语言 。 值 得 注意 的 是 , Python 是 开源 的 , 源 代码 遵循 GPLCGNU General 
Public License) 协 议 , 这 就 意味 着 它 对 所 有 个 人 开发 者 是 完全 开放 的 ,这 也 使 得 
Python 在 开发 者 中 迅速 流行 开 来 ,来 自 全 球 各 地 的 Python 使 用 者 为 这 门 语言 的 发 
展 贡献 了 很 多 力量 。Python 的 哲学 是 优雅 .明确 和 简单 。 著 名 的 the Zen of Python 
(Python 之 禅 )? 这 样 说 道 : 


优美 胜 于 丑陋 ， 

9] T T 3E. 

简洁 胜 于 复杂 ， 

复杂 胜 于 凌乱 ， 

扁平 胜 于 谈 套 ， 

间隔 胜 于 紧凑 ， 

可 读 性 很 重要 。 

即便 假借 特例 的 实用 性 之 名 ,也 不 可 违背 这 些 规则 ， 
不 要 包容 所 有 错误 ,除非 你 确定 需要 这 样 做 ， 


© 作者 为 Tim Peters, 英 文 原文 可 见 “https://www. python. org/dev/peps/pep-0020/”。 
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当 存 在 多 种 可 能 ,不 要 尝试 去 猜测 ， 

而 是 尽量 找 一 种 ,最 好 是 唯一 一 种 明显 的 解决 方案 ， 

虽然 这 并 不 容易 ,因为 你 不 是 Python 之 父 。 

做 也 许 好 过 不 做 ,但 不 假 思索 就 动手 还 不 如 不 做 。 

如 果 你 无 法 向 人 描述 你 的 方案 , 那 肯 定 不 是 一 个 好 方案 ; 反之 亦 然 。 
命名 空间 是 一 种 绝妙 的 理念 ,我 们 应 当 多 加 利用 。 


” 


在 2000 年 发 布 了 Python 2 版 本 ,Python 3 版 本 则 于 2008 年 发 布 ,这 一 新 版 本 不 
完全 兼容 之 前 的 Python 源 代 码 。 目 前 (2017 年 ) 用 户主 要 接触 到 的 是 Python 2.7 与 
Python 3.5, 以 及 更 新 一 点 的 Python 3.6,Python 3 在 Python 2 的 基础 上 做 出 不 少 很 
有 价值 的 改进 ,Python 3.5 和 Python 3. 6 已 逐步 成 为 Python 的 主流 版 本 ,本 书 将 完 
全 使 用 Python 3 作为 开发 语言 。 


1.1.2 Python 的 应 用 现状 


Python 的 应 用 范围 十 分 广泛 ,著名 的 应 用 案例 如 下 。 
Reddit: 社交 分 享 网 站 ,美国 最 热门 的 网 站 之 一 。 
Dropbox: 文件 分 享 服务 。 
Pylons: Web 应 用 框架 。 
TurboGears: 另 一 个 Web 应 用 快速 开发 框架 。 
Fabric: 用 于 管理 Linux 主机 的 程序 库 。 
Mailman: 使 用 Python 编写 的 邮件 列表 软件 。 
Blender: 用 C 语言 和 Python 开发 的 开源 3D 绘图 软件 。 

国内 的 例子 也 有 很 多 ,著名 的 豆瓣 网 (国内 一 家 受 年 轻 人 欢迎 的 社交 网 站 ) 和 知 
乎 (国内 著名 的 问答 网 站 ) 都 大 量 使 用 了 Python 进行 开发 。Python 在 业界 的 应 用 很 
广 , 总 结 起 来 ,在 系统 编程 .图 形 处 理科 学 计算 数据库、 网 络 编程 .Web 应 用 、 多 媒体 
应 用 等 方面 都 有 它 的 身影 。 在 2017 年 的 IEEE Spectrum Ranking r9. Python 力 压 
群雄 ,成 为 最 流行 的 编程 语言 。 众 所 周知 ,学 习 一 门 程序 语言 最 有 效 的 方法 就 是 边 学 


© 可 见 “http://Python3-cookbook. readthedocs. io". 
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边 用 , 边 用 边 学 。 通 过 对 Python MG db 03 2E 5 2] 4H (e E WE 5 4R p JL BE PEE 
Python 语言 的 理解 和 应 用 。 

【提示 】 为 什么 要 使 用 Python 来 编写 爬虫 程序 ? Python 的 简明 语法 和 各 种 各 
样 的 开源 库 使 得 Python EMAR RA BGR TSAR RM RAB aS — 
般 对 性 能 的 要 求 不 会 太 高 ,因此 虽然 一 般 认 为 Python 在 性 能 上 难以 与 C/C++ Fo Java 
相 比 ,但 总 的 来 说 ,使 用 Python 有 助 于 更 好 更 快 地 实现 用 户 所 需要 的 功能 。 另 外 ， 
考虑 到 Python 社区 贡献 了 很 多 各 有 特色 的 库 , 很 多 都 能 直接 拿 来 编写 朴 虫 程序 ,所 
以 Python 的 确 是 目前 最 好 的 选择 。 


1.2 Python 的 安装 与 开发 环境 配置 


在 开始 探索 Python 世界 之 前 ,用 户 首先 需要 在 自己 的 计算 机 上 安装 Python, f 
得 高 兴 的 是 ,Python 不 仅 免费 .开源 ,而 且 坚 持 轻 量 级 ,安装 过 程 并 不 复杂 。 如 果 使 
用 Linux 系统 ,可 能 已 经 内 置 了 Python( 虽 然 版 本 有 可 能 是 较 旧 的 ); 如 果 使 用 苹果 
计算 机 (Mac 系统 ) ,一 般 也 已 经 安装 了 命令 行 版 本 的 Python 2. x。 在 Linux 或 Mac 
OS X 系统 上 检测 Python 3 是 否 安装 的 最 简单 办 法 是 使 用 终端 命令 ,在 terminal 应 用 
中 输入 Python 3 命令 并 回 车 执行 ,观察 是 否 有 对 应 的 提示 出 现 。 至 于 Microsoft 
Windows 系统 ,在 目前 最 新 的 Windows 10 版 本 上 还 没有 内 置 Python, 因 此 用 户 必须 
手动 安装 。 


1.2.1 在 Windows 上 安装 


Hilal“ python. org/download/ ”并 下 载 与 计算 机 架构 对 应 的 Python 3 安装 程序 ， 
一 般 而 言 ,只 要 有 新 版 本 ,就 应 该 选择 最 新 的 版 本 。 这 里 需要 注意 的 是 选择 对 应 架构 
的 版 本 ,用 户 需 要 首先 搞 清 楚 自己 的 系统 是 32 位 的 还 是 64 位 的 ,如 图 1-1 所 示 。 


Windows x86-64 embeddable zip file Windows for AMD64/EM6ST/x64 G4ccafefGal4baTafGae laBb68Sec471 T190516 — si 
Windows 86-64 executable installer Windows for AMDE4/EMGST/x64 Se36c9345416399f860812b4ac7002b. amen se 
Windows x86-64 web-based installer Windows for AMD64/EMBST/x64 540736a3894022d30fTbabf77391d6b iun — se 
Windows (bob099a4fa479f037860c15[2b214f34 6429369 SIG 
Windows 2bbSad2eccaS088171ef923bca483/02. 30735232 — SIG 
Windows 59666Tcb91a3fb20e6faf153f3a213a5 1294096 — si6 


图 1-1 python. org 下 的 download 页 面 ( 部 分 ) 
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根据 安装 程序 的 指引 一 步 步 进 行 , 就 能 完成 整个 安装 。 如 果 最 终 看 到 类 似 图 1-2 
这 样 的 提示 ,就 说 明 安装 成 功 。 


DET 3.1 Setup 


Completing the Python 3.1 Installer 


windows Click the Finish button to exit the Installer. 


图 1-2 Python 安装 成 功 的 提示 
这 时 检查 “开始 ”菜单 ,就 能 看 到 Python 3. x 的 应 用 程序 ,如 图 1-3 所 示 。 其 中 有 


一 个 IDLE 程序 ,用 户 可 以 单 击 它 开始 在 交互 式 窗口 中 使 用 Python Shell, 如 图 1-4 
所 示 。 


ey OLE Python 34 Gu - 32 bin) 
ad Python 34 (command line - 3... 
ep Python 3.4 Docs Server (pydo.. 


e) 


£2 Python 3.4 Manuals 


15. Uninstall Python 3.4 (32 bit) 


13 ”安装 完成 后 的 “开始 "菜单 


Ele Edit Shell Debug Qptions Window Help 


Python 3.4.3 (v3.4.3:9b73f1c3e601, Feb 24 2015, 22:43:06) [MSC v.1600 32 bit (In 
tel)] on win32 

ki "copyright", "credits" or "license()" for more information. 

>>> 


14 IDLE 的 界面 
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1.2.2 f£ Ubuntu fll Mac OS 上 安装 


Ubuntu 是 诸多 Linux 发 行 版 中 受众 较 多 的 一 个 系列 。 在 Ubuntu 系统 中 ,用 户 
可 以 通过 Applications 中 的 添加 应 用 程序 安装 Python, 在 其 中 搜索 Python 3, 并 在 结 
果 中 找到 对 应 的 包 , 进 行 下 载 即 可 。 如 果 安 装 成 功 ,用 户 可 以 在 Applications( 应 用 程 
序 ) 中 找到 Python IDLE, 从 而 进入 Python Shell 中 。 

在 Mac 系统 中 ,访问 “python. org/download/” 并 下 载 对 应 的 Mac 平台 安装 程 
序 ,根据 安装 包 的 提示 进行 操作 ,用 户 最 终 将 看 到 类 似 图 1-5 的 成 功 提示 信息 。 


Installation completed successfully 


O 


Install Succeeded 


The software was successfully installed. 


图 1-5 Mac 上 的 安装 成 功 提示 
关闭 该 对 话 框 ,进入 Applications( 或 者 是 从 LaunchPad 页 面 打开 ) 中 ,用 户 就 能 
找到 Python Shell IDLE., 启 动 该 程序 ,看 到 的 结果 应 该 和 Windows 平台 上 的 结果 
类 似 。 


1.2.3 PyCharm 的 使 用 


虽然 Python 自 带 的 IDLE Shell 是 绝 大 多 数 人 对 Python 的 第 一 印象 ,但 如 果 通 
过 Python 语言 编写 程序 、 开 发 软件 . 它 并 不 是 唯一 的 工具 ,很 多 人 更 愿意 使 用 一 些 特 
定 的 编辑 器 或 者 由 第 三 方 提供 的 集成 开发 环境 软件 (IDE)。 借 助 IDE 的 力量 ,用 户 
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可 以 提高 开发 的 效率 ,但 是 对 于 开发 者 而 言 ,只 有 最 适合 自己 的 ,没有 “最 好 的 ”, 习 惯 
一 种 工具 后 再 接受 另 一 种 总 是 不 容易 的 。 这 里 简单 介绍 一 下 PyCharm 的 安装 和 配 
置 个 由 JetBrains 公司 出 品 的 Python 开发 工具 。 

用 户 可 以 在 其 官网 中 下 载 到 该 软件 ,网 址 如 下 : 

https://www. jetbrains. com/pycharm/download/ # section= windows 

PyCharm 支持 Windows, Mac, Linux 三 大 平台 ,并 提供 Professional 和 
Community 两 种 版 本 供用 户 选 择 ( 见 图 1-6)。 其 中 ,前 者 需要 购买 正版 (提供 免费 试 
用 ), 后 者 可 以 直接 下 载 使 用 ; 前 者 的 功能 更 加 丰富 ,但 后 者 也 足以 满足 一 些 普 通 的 
开发 需求 。 


Download PyCharm 


Windows macos Linux 
Professional Community 
Version Full-featured IDE Lightweight IDE 
Build: for Python & Web for Python & Scientific 
development development 
Released. 
System requirements 
instri n Free trial Free, open-source 


Get the ToolBox App to download PyCharm 
and its future updates with ease 


图 1-6 PyCharm 的 下 载 页 面 
选择 对 应 的 平台 并 下 载 后 ,安装 程序 ( 见 图 1-7) 将 会 指引 用 户 完 成 安装 。 在 安装 
完成 后 ,从 “开始 ”菜单 中 (对 于 Mac 和 Linux 系统 而 言 是 从 Applications 中 ) 打开 
PyCharm, 用 户 就 可 以 创建 自己 的 第 一 个 Python 项 目 了 ( 见 图 1-8)。 
在 创建 项 目 后 ,用 户 还 需要 进行 一 些 基本 的 配置 ,可 以 在 菜单 栏 中 选择 File 
Settings 命令 打开 相应 界面 进行 PyCharm 的 设置 。 


Python P ge ch Sz 5x 
Ò 


Welcome to PyCharm Setup 


Setup will guide you through the instalation of PyCharm. 


Itis recommended that you dose all other applications 
before starting Setup. This wil make it possible to update 
relevant system files without having to reboot your 
computer. 


ick Next to continue. 


图 1-7 PyCharm 安装 程序 (Windows 平台 ) 


Ss Location: | DAuntitled1 EJ 


mepe: 
i 
图 1-8 创建 新 项 目 


首先 修改 一 些 UI 上 的 设置 ,比如 修改 界面 主题 ,如 图 1-9 所 示 。 

然后 在 编辑 界面 中 显示 代码 行 号 ,如 图 1-10 所 示 。 

接着 修改 编辑 区 域 中 代码 的 字体 和 大 小 ,如 图 1-11 所 示 。 

如 果 想 要 设置 软件 UI 中 的 字体 ,可 以 在 Appearance&Behavior 中 修改 ,如 图 1-12 
所 示 。 

在 运行 编写 的 脚本 之 前 ,需要 添加 Run/Debug 配置 ,主要 是 选择 一 个 Python 解 
释 器 ,如 图 1-13 所 示 。 
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a | Appearance & Behavior ^ Appearance 
^ Appearance & Behavior opts 
Theme: [mk] v 


Y oen Tibor DM Doct sion deficiency (protanopi, deuteranopa) How works 
Mni a| Eres Yalrecommenaed 
RE e Name | SENS Tent 司 se [s ~ 
Notte atons E Oye serating in ist 
Quick sts 回 Show cons n quck navgaton 
Keymap C Automatica postion mouse cursor on defaut buton 
e EZ Hide navigation popups on focus loss 
levy [ Drag-n-Drop with ALT pressed oriy 
> Version Control e 
~ Project QuantNEO e Tooltip intial delay (ms): a a 
Project interpreter a 
Projet Stucture © | annarasng 
> Buld, Execution, Deployment ^ ik supo E coe ERR z 
> Languages & Frameworks © — x 
> Tools Wndow Optons 
E Animate windows E Show tooi wndow bars 
C] Show memory indicator [| Show tool wrdow numbers 
C] Disatie mnemonics in menu 回 Mos merging buttons on dalogs 
C] Disable mnemonics n controis C] Smal ates in edtor sbs 
回 Display icons in menu tems. 口 Weescreen loo wndow layout 


图 1-9 修改 界面 主题 


Q || Editor > General > Appearance 
Appearance & Behavior EZ Caret blinking (ms): 500 
A yaan ee [ Use block caret 

ele © | E Show right margin (configured in Code Style options) 
‘Scopes © | gj Show line numbers 
Notifications 口 Show method separators 
Quick Lists [C Show whitespaces 
Keymap Leading 

Y Editor Inner 

v General Trailing 
LT @ | E Show vertical indent guides 


—w-—AAA oo 


Show code lens on scrollbar hover 


e 3 Show parameter name hints ^ Configure. 
口 Show CSS color preview as background 


Console EZ Enable HTMUXML tag tree highlighting 
Editor Tabs Levels to highlight- 6 
Gutter Icons Opacity: O01 


ble) 


| 


1-10 设置 显示 代码 行 号 


a Editor » Color Scheme » Color Scheme Font 
> Appearance & Behavior || scheme: | Github copy x ~|% 
Keymap 
V Bior EZ] Use color scheme font instead of the default (Monospaced, 15) 
? General ————————— 
Font Font: Consolas Y MM Show only monospaced fonts 
~ Color Scheme Size 24 
General Line spacing: 1.0 
Language Defaults = 
Fallback font: | <None> Y] For symbols not supported by the main font 
Font [ Enable font ligatures 
Console Colors 
Custom 
Debugger 1PyCharm is a full-featured IDE 
ea 2with a high level of usability and outstanding 
ies » 3 advanced code editing and refactoring support. 
4 
Python 5 abcdefghijklmnopqrstuvwxyz 0123456789 (){}[] 
Buidou config 6 ABCDEFGHIJKLMNOPQRSTUVWXYZ +-*/= .,;:!? #8$%@|^ 
CoffeeScript 7 
css = 
‘Cucumber 1e 
Database 


图 1-11 设置 代码 的 字体 和 大 小 


Theme: IntelliJ id 
[ Adjust colors for red-green vision deficiency (protanopia, deuteranopia) How it works 
回 Override defaut fonts by (not recommended): 
| Name SF NS Text v Sie 16 ~ 
E Cyclic scroling in ist j 
[Ez] Show icons in quick navigation 
[C Automatically position mouse cursor on default button 
EZ] Hide navigation popups on focus loss 
C Drag-n-Drop with ALT pressed only 


Tootip initial delay (ms). ! 
o 1200 


IDE. Subpixel * Editor: Subpiel y 


图 1-12 调整 PyCharm UI 界面 中 的 字体 
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HB 


+--+ +m 


团 Django server 

Ef Django tests 

& Docker Deployment 
@ Firefox Remote 

S Gruntjs 

É Gupjs 

T JavaScript Debug 
W Jest 


React Native 
A Tox 


a 


pa | Press the-I- button to create a new Python run configuration based on default settings 


Apply 


[Co [ewe | 


图 1-13 在 PyCharm 中 添加 Run/Debug 配置 
用 户 还 可 以 更 改 代码 的 高 亮 显示 设置 ,如 图 1-14 所 示 。 


Function definition 
Invalid escape sequence 
Keyword. 

Keyword argument 

Line Comment 

Number 

‘Operation Sign 
Parameter 

Parentheses 


2def f(x): 

""" Syntax HighLightin. 
@param x Paramet: 

s = ("Test", 2+3, (* 

print s[].lower() 


class Foo: 
def init (self): 
byte string 

text string 


16decorator(param-:) 


x 


'newline:\n also newline: \x@a' 


.8 is Nu842f. Oops: Nugagg. 


[E] 


Ano 


图 1-14 更 改 代码 的 高 亮 显示 设置 


Python ge k E 
Q 


PyCharm 还 提供 了 一 种 便捷 的 包 安 装 界面 ,使 得 用 户 不 必 使 用 pip 或 者 
easyinstall 命令 (两 个 常见 的 包 管理 命令 ) 进 行 安 装 。 在 设置 中 找到 当前 的 Python 
Interpreter, 单 击 右 侧 的 “十 ”按钮 ( 见 图 1-15) ,搜索 想 要 安装 的 包 名 ,然后 安装 


即 可 。 
> Appearance & Behavior PoedWepe ^ me m E I «je 
Keymap 
> dior Package. 1 ven | Latest al + 
Plugins Flask 0101 0122 l- 
Jina2 28 +210 
> Version Control -An T E t 
[v Project: i P Piw 430 +500 
PyDispatcher 205 205 
Project Structure © Pynstaler 32 +331 
Pygments 220 220 
ee ee Send2Trash 150 150 
> Languages & Frameworks = © Simplocy 13 +s 
> Tools Twisted 1632 路 1840rc1 
Werkzeug onn +0141 
beautfulsoup4 451 * 480 
bleach 213 213 
bs4 001 001 
certifi 20177271 中 2018118 
di 170 +115 
chardet 304 304 
colorama 039 039 
cryptography 14 222 
cssselect 092 #103 
cycler 0100 
decorator 421 421 
enirypoints 023 023 
fue 0160 0160 


图 1-15 通过 Interpreter 安装 的 Package 


1.2.4 Jupyter Notebook 


Jupyter Notebook 并 不 是 一 个 IDE 工具 ,正如 它 的 名 字 , 这 是 一 个 类 似 于 “笔记 
本 ”的 辅助 工具 。Jupyter 是 面向 编程 过 程 的 ,而 且 由 于 其 具有 的 独特 的 “笔记 ”功能 ， 
代码 和 注释 在 这 里 会 显得 非常 整齐 、 直 观 。 用 户 可 以 使 用 “pip install jupyter" fip 4 2c 
装 它 。 在 PyCharm 中 也 可 以 通过 Interpreter 来 安装 ,如 图 1-16 所 示 。 

如 果 用 户 在 安装 过 程 中 遇 到 了 问题 ,可 以 访问 Jupyter 安装 官网 获取 更 多 信息 ， 
网 址 如 下 : https://jupyter. readthedocs. io/en/latest/install. html. 

在 PyCharm 中 新 建 一 个 Jupyter Notebook 文件 ,如 图 1-17 Prax. 

单 击 “ 运 行 " 按 钮 后 系统 会 要 求 用 户 输入 token, 这 里 可 以 不 输入 ,直接 单 击 Run 
Jupyter Notebook, 按 照 提 示 进 入 笔记 本 页 面 ( 见 图 1-18)。 


JupyterHuck 
agensgraph4jupyter 


civis.jupyter-notebook 
'colomoto jupyter 
hdijupyterutils 

hugo jupyter 


jupyter-athena-sql 
jupyter-beaulifier 
jupyter-cjk-xelatex 
jupyter-conf-search 


applicationinsights-jupyter 
backend al-integrationjupyter 
civis-jupyter-extensions 


indico-plugin-previewer-jupyter 


jupyter-alabaster-theme 


Install Package 


Manage Repositories | 
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组 


Jupyter metapackage install all the Jupyter components in one go. 


|| Version 


100 


[7] Installto users site packages directory (C:\Users\zhangyangAppData\Roaming\Python) 


Find Usages 
Find in Path. 
Replace in Path... 
Inspect Code... 
Refactor 


图 1-16 ”安装 Jupyter 


CtrhX 

Circ 
(Ctr+Shift+C 
Cirl+Alt+Shift+C 


Cirl+Shift+F 
Chi+Shift+R 


Clean Python Compiled Files 


Add to Favorites 
‘Show Image Thumbnails 
Local History 

D Synchronize 'QuantNEO' 
‘Show in Explorer 
Directory Path 

* Compare With.. 
Mark Directory as 

EE Diagrams 


» 
Ctrl+Shift+T 
» 


Chri+Al+F12 
Ctrl+D 
» 


» 


@ File 

i New Scratch File — Cirl+AlteShift+insert 
Ba Directory 

Ea Python Package 

f$ Python File 


HTML File 

& Stylesheet 

& JavaScript File 

&. TypeScript File 

Ë CofeeSciipt File 

9 Gherkin feature file 
Edit File Templates... 

= Data Source 


\Prosrams\Python\Python35-32\p 


© Create Gist. 


图 1-17 ”新建 一 个 Jupyter Notebook 文件 


(9 Python 网 络 肥 虫 实战 | 


[I 19:43:17.704 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation). 
[C 19:43:17.711 NotebookApp] 


Copy/paste this URL into your browser when you connect for the first time, 
to login with a token: 


图 1-18 i Run Jupyter Notebook 后 的 提示 


Notebook 文档 被 设计 为 由 一 系列 单元 (Cell) 构 成 ,主要 有 两 种 形式 的 单元 ,其 中 
代码 单元 用 于 编写 代码 ,运行 代码 的 结果 显示 在 本 单元 下 方 ; MarkDown 单元 用 于 
文本 编辑 ,采用 MarkDown 的 语法 规范 ,可 以 设置 文本 格式 ,插入 链接 、 图 片 甚至 数学 
公式 ,如 图 1-19 所 示 。 


|— Jupyter notebook1 (unsaved changes) [men 
Fle Edt View inset Cel Kemel Wgets Hep Trusted | Python © 


B+ xab ^ + Run N C P» Code mr 


Inf: a=1 
a 
oul 1 
Inia: b=2 
b 
Ouf]: 2 
In Bl atb 
Out: 3 
这 里 是 MarkDown 语 名 


In (Al: %timeit 
print(Hi there’) 


Hithere 


图 1-19 Notebook 的 编辑 页 面 
Jupyter Notebook 还 支持 插入 数学 公式 、 制 作 演示 文稿 以 及 特殊 关键 字 等 。 也 
正 因为 如 此 ,Jupyter 在 创建 代码 演示 数据 分 析 等 方面 非常 受 人 们 欢迎 ,掌握 这 个 工 
具 将 会 使 大 家 的 学 习 和 开发 更 为 轻松 \ 快 捷 。 


1.3 Python 的 基本 语法 
本 节 讲 解 一 下 Python 的 基础 知识 和 语法 ,如 果 读 者 有 使 用 其 他 语言 编程 的 基 


础 ,理解 这 些 内 容 将 会 非常 容易 。 其 实 , 由 于 Python 本 身 的 设计 简洁 ,这 些 内 容 也 十 
分 容易 掌握 。 
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1.3.1 数据 类 型 
输出 一 行 “Hello，World!”, 在 C 语言 中 需要 的 程序 语句 是 这 样 的 : 


# include < stdio.h> 

int main() 

{ 
printf("Hello, World!"); 
return 0; 


} 
而 在 Python 中 可 以 用 一 行 完 成 。 
print( 'Hello, World! ') 


在 Python 中 ,每 个 值 都 有 一 种 数据 类 型 ,但 和 一 些 强 类 型 语言 不 同 ,用 户 并 不 需 
要 直接 声明 变量 的 数据 类 型 。Python 会 根据 每 个 变量 的 初始 赋值 情况 分 析 其 类 型 ， 
并 在 内 部 对 其 进行 跟踪 。 在 Python 中 内 置 的 数据 类 型 主要 如 下 。 
。 Number: 数值 类 型 ,可 以 是 Integers(1 和 2)、Float(1. 1 和 1. 2)、Fractions(1/2 
和 2/3) ,或 者 是 Complex Number( 数 学 中 的 复数 ) 。 
String: 字符 串 ,主要 描述 文本 。 
List; 列表 ,一 个 包含 元 素 的 序列 。 
Tuple: 元 组 ,和 列表 类 似 , 但 它 是 不 可 变 的 。 
Set; 一 个 包含 元 素 的 集合 ,其 中 的 元 素 是 无 序 的 。 
Dict: 字典 ,由 一 些 键 值 对 构成 。 
Boolean: 布尔 类 型 ,其 值 为 True 或 为 False。 
Byte: 字 节 ,例如 一 个 以 字 节 流 表示 的 JPG 文件。 
FMA Number 中 的 int 开始 ,使 用 type 关键 字 获 取 某 个 数据 的 类 型 : 


Print(type(1)) # «class 'int > 
a=1+2//3 # “URTER 
print(a) #1 

print(type(a)) # «class 'int' 


【提示 】 £HTCizEH/*-ex/QOERU//"8) 35 A EAT IER. E Python 
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中 注释 通过 “#” 开 头 的 字符 囊 体 现 。 注 释 内 容 不 会 被 Python 解释 器 作为 程序 语句 。 
在 int 和 float 之 间 ,Python 一 般 会 使 用 是 否 有 小 数 点 来 做 区 分 : 


a=9xx9 # “xx ERA 
print(a) # 387420489 
print(type(a)) # <class 'int 
b=1.0 

print(b) #1.0 

print (type(b) ) # <class 'float > 


这 里 需要 注意 的 是 ,把 一 个 int 与 一 个 int 相 加 将 得 到 一 个 int, 但 把 一 个 int 与 一 
个 float 相 加 将 得 到 一 个 float, 这 是 因为 Python 会 把 int 强制 转换 为 float 以 进行 加 
法 运算 : 


c=atb 

print(c) 
print(type(c)) 

# 输出 

# «class 'float > 
# 387420490.0 

# <class ‘float > 


使 用 内 置 的 关键 字 进 行 int 与 float 之 间 的 强制 转换 是 经 常用 到 的 : 


int num= 100 

float num- 100.1 
print(float(int num)) 
print(int(float num)) 


# 输出 
# -100.0 
# -100 


在 Python 2 中 曾 有 int 和 long( 长 整数 类 型 ) 的 区 分 ,但 在 Python 3 tP int 吸收 了 
2. x 版 本 中 的 int 和 long, 不 再 对 较 大 的 整数 和 较 小 的 整数 做 区 分 。 有 了 数值 ,就 有 
了 数值 运算 : 


a, b, c2 1, 2, 3.0 
# 一 种 赋值 方法 ,此 时 a 为 1,b 为 2,c 253.0 


print(a* b) * 加 法 
print(a- b) # 减法 


| 第 1 章 Python E i £& fe ch (19) 
© 


print(a* c) # 乘法 
print(a/c) # 除法 
print(a//b) + 整除 
print (b ** b) # REK 
print(b*a) # RR 
# 输出 


# 
# 0. 3333333333333333 
#0 

#4 

#0 


在 Python 中 还 有 相对 比较 特殊 的 分 数 和 复数 ,分 数 可 以 通过 fractions 模块 中 的 
Fraction 对 象 构造 : 


import fractions # 导 人 分 数 模块 
a= fractions. Fraction(1,2) 

b = fractions. Fraction(3,4) 

print(a* b) * 输出 5/4 


复数 可 以 使 用 函数 complex(real,，imag) 或 者 带 有 后 级 j 的 浮 点 数 来 创建 : 


a= complex(1,2) 


b=2+3j 

print(type(a),type(b)) # «class 'complex'» < class ‘complex > 
print(a* b) # (3+5j) 

print(a* b) # (-4+7j) 


布尔 类 型 本 身 非 常 简单 ,Python 中 的 布尔 类 型 以 True 和 False 两 个 常量 为 值 : 


print(1<2) # True 
print(1>2) # False 


Python 中 对 布尔 类 型 和 if else 判断 的 结合 比较 灵活 ,这 些 内 容 将 在 实际 编程 中 
详细 探讨 。 

在 介绍 字符 串 之 前 先 对 list( 列 表 ) 和 tuple( 元 组 ) 做 简单 的 了 解 ,因为 list 涉及 
Python 中 一 个 非常 重要 的 概念 一 一 可 迭代 对 象 。 对 于 列表 而 言 , 序 列 中 的 每 一 个 元 
素 都 在 一 个 固定 的 位 置 上 ( 称 为 索引 ) ,索引 从 “0” 开 始 。 列 表 中 的 元 素 可 以 是 任何 数 
据 类 型 ,Python 中 列表 对 应 的 是 中 括号 “Lj” 的 表示 形式 。 
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117 [1,2,3,4] 


print(11[0]) # 通过 索引 访问 元 素 , 输 出 1 
print(11[1]) + 输出 2 
Print(11[ - 1]) + 输出 4 


* 使 用 负 索 引 值 可 以 从 列表 的 尾部 向 前 计数 访问 元 素 
# 任何 非 空 列表 的 最 后 一 个 元 素 总 是 1ist[ -1] 


列表 切片 (slice) 可 以 简单 地 描述 为 从 列表 中 取 一 部 分 的 操作 ,通过 指定 两 个 索 
引 值 ,可 以 从 列表 中 获取 称 为 “切片 ”的 某 个 部 分 。 其 返回 值 是 一 个 新 列表 ,从 第 一 个 
索引 开始 ,到 第 二 个 索引 结束 (不 包含 第 二 个 索引 的 元 素 )。 列 表 切 片 的 使 用 非常 


灵活 : 
11=[ ifor i in range(20)] # 列表 解析 语句 
# 11 中 的 元 素 为 从 0 到 20 (不 含 20 ) 的 所 有 整数 
print(11) 


print(11[0:5]) # J& 11 中 的 前 5 个 元 素 
# 输出 : [0, 1, 2, 3, 4] 


print(11[15: - 1]) # 取 索 引 为 15 的 元 素 到 最 后 一 个 元 素 (不 含 最 后 一 个 ) 
# 输出 : [15, 16, 17, 18] 

print(11[:5]) * 取 前 5 ,"o"np eu 

WR AE WD REG AS, TAG HE BS TIERE ER e ;如 果 右 切片 索引 为 列表 的 长 度 , 也 可 以 将 其 
# 留 空 

371071; 273241 

print(11[1:]) + 取 除 了 索引 为 0 的 元 素 (第 一 个 ) 之 外 的 所 有 元 素 

35 [25 2703104, 5,067 Ty By 9,10, 11, 12; 13; 14, 15, 16, 177 18,19] 

12 = 11[:] + 取 所 有 元 素 ,其 实 是 复制 列表 

print(11[::2]) + 指定 步 数 , 取 所 有 偶数 索引 

# 输出 : [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 

print(11[:: - 1]) + 倒 着 取 所 有 元 素 


SMH SIG, 0177116; 15; 26,23; 22, td 20, 2y B; 17716705704, 13792 01/00] 


向 一 个 list 中 添加 新 元 素 的 方法 也 有 很 多 ,常见 的 如 下 : 


l1=['a'] 

11=11+['b'] 

print(11) 

* pa 'b'] 

11.append( 'c') 

11. insert(0, 'x') 

11. insert(len(11), 'y') 
print(11) 

# ['x', av "b', "c", 'y'] 
11. extend([ 'd*, 'e']) 
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print(11) 

# ['x’, 'a', "b', 'c', "y', 'd', 'e'] 

11. append([ '£', 'g']) 

print(1i) 

re dr a aa AD 

这 里 要 注意 的 是 extend() 接 收 一 个 列表 ,并 把 其 元 素 分 别 添 加 到 原 有 的 列表 ,类 
似 于 “扩展 ”; 而 append() 是 把 参数 (参数 有 可 能 也 是 一 个 列表 ) 作 为 一 个 元 素 整体 添 
加 到 原 有 的 列表 中 。insert() 方 法 会 将 单个 元 素 插 入 到 列表 中 。 其 第 一 个 参数 是 列 
表 中 将 插入 的 位 置 (索引 )。 

从 列表 中 删除 元 素 的 方法 也 有 很 多 : 


# 从 列表 中 删除 

del 11[0] 

print (11) 

Ean ‘bi ety "yy a [£5 ‘gl 

ll.remove('a') & remove() 方 法 接受 一 个 value 参数 ,并 删除 列表 中 该 值 的 第 一 次 出 现 
print(11) 

puce DES] 

11.pop() # 如 果 不 带 参 数 调 用 ，Ppop () 方 法 将 删除 列表 中 最 后 的 元 素 ,并 返回 所 删除 的 值 
print(11) 

# [bY tes ty", dr ten] 

11. pop(0) + 可 以 给 pop 一 个 特定 的 索引 值 

print(11) 

# Uc'y 'y's 'd', e] 


元 组 (tuple) 与 列表 非常 相似 ,最 大 的 区 别 在 于 元 组 是 不 可 修改 的 ,在 定义 之 后 就 
“固定 ”了 ,并且 元 组 在 形式 上 是 用 “OO)” 括 起 来 的 。 由 于 元 组 是 “冻结 ”的 ,所 以 不 能 插 
和 或 删除 元 素 。 它 的 其 他 一 些 操作 与 列表 类 似 : 


tl = (1,2,3,4,5) 


print(t1[0]) #1 
print(t1[:: -1]) E (Sra 1) 
print(1 in t1) # 检查 “1? 是 否 在 tl 中 


print(t1. index(5)) # 返回 茶 个 值 对 应 的 元 素 案 引 ,输出 4 


[Em] 元 素 可 修改 与 不 可 修改 是 列表 与 元 组 最 大 (或 者 说 唯一 ) 的 区 别 , 除 了 
修改 内 部 元 素 的 操作 以 外 ,其 他 列表 适用 的 操作 基本 上 都 可 以 用 于 元 组 。 

在 创建 一 个 字符 串 时 将 其 用 引号 括 起 来 ,引号 可 以 是 单 引号 (') 或 者 双 引 号 (")， 
两 者 没有 区 别 。 字 符 串 也 是 一 个 可 迭代 对 象 .因此 与 取得 列表 中 的 元 素 一 样 ,也 可 以 


HB 
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通过 下 标记 号 取得 字符 串 中 的 某 个 字符 ,一 些 适用 于 list 的 操作 同样 适用 于 str: 


strl = 'abcd' 
print(str1[0]) # 索引 访问 
*a 


print(str1[:2]) # 切片 

* ab 

strl = strl + 'efg' 

print(strl) 

# abcdefg 

strl = strl + 'xyz'* 2 

print(stri) # abcdefgxyzxyz 
# 格式 化 字符 串 

print('() is a kind of (). '. format('cat', 'mammal')) 

# 输出 :cat is a kind of mammal. 


# 显 式 指定 字段 
print('(3) is in (2), but (1) is in (0) '. format( 'china', 'shanghai', 'us', 'new york')) 
* 输出 :new york is inus, but shanghai is in china 


# 以 3 个 引号 标记 多 行 字符 串 

long str = '''I love this girl, 

but I don't know if she likes me, 

what I can do is to keep calm and stay alive. 


print(long str) 


集合 的 特点 是 无 序 且 值 唯一 ,创建 集合 和 操作 集合 的 常见 方式 如 下 : 


setl = (1,2,3) 

11=[4,5,6] 

set2 = set(11) 

print(set1) tbe Opa I 
print(set2) * (4,5,6) 


+ 添加 元 素 

setl.add(10) 

print(setl) 

J el yea oi} 

set1. add(2) # 无 效 语句 ,因为 “2” 在 集合 中 已 经 存在 
print(seti) 

4:107 1,2, 3) 

setl.update(set2) + 类 似 于 1ist 的 extend() 操 作 
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print(setl) 
* (1, 2, 3, 4, 5, 6, 10) 


* 删除 元 素 

setl. discard(4) 

print(setl) 

raid a, Sree oe 010 

setl, remove(5) 

print(set1) 

# {1, 2, 3, 6, 10} 

setl.discard(20) # 无 效 语句 ,不 会 报错 
# 使 用 remove() 去 除 一 个 并 不 存在 的 值 时 会 报错 
* setl.remove(20) 

setl.clear() 


print(set1) LE 清空 集合 


setl = {1,2,3,4} 

# 并 集 ,交集 与 差 集 

print(setl.union(set2)) £ fEsetl 或 者 set2 中 的 元 素 

# (1, 2, 3, 4, 5, 6) 

print(setl. intersection(set2)) # 同时 在 setl 和 set2 中 的 元 素 
* (4) 

print(set1. difference(set2) ) # 在 setl 中 但 不 在 set2 中 的 元 素 
# {1, 2, 3} 

print(setl.symmetric difference(set2)) # 只 在 setl 或 只 在 set2 中 的 元 素 
* (1, 2, 3, 5, 6} 


字典 (dict) 相 对 于 列表 ,元 组 和 集合 显得 稍微 复杂 一 点 ,Python 中 的 字典 是 键 值 
对 (key-value) 的 无 序 集合 。 在 形式 上 它 和 集合 类 似 , 创 建 字 典 和 操作 字典 的 基本 方 
RUF: 


di = ('a':1, 'b':2} # 使 用 “{}” 创 建 

d2 = dict([['apple', 'fruit'],[ ‘lion’, 'animal']]) # EH dict 关键 字 创 建 
d3 = dict(name = 'Paris', status = ‘alive’, location = 'Ohio') 

print(dl) # ('a': 1, 'b': 2} 

print(d2) # ('apple': 'fruit', 'lion': 'animal'] 

print(d3) # ('status': 'alive', 'location': 'Ohio', 'name': 'Paris'} 


+ 访问 元 素 
print(di['a']) #1 
print(d3.get('name')) * Paris 


# MEH get () 方 法 获取 不 存在 的 键 值 对 不 会 触发 异常 


# 修改 字典 一 一 添加 或 更 新 键 值 对 
di['c'] = 3 
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di['c']=-3 
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d3.update(name = 'Jarvis',location- 'Virginia') 

print(d3) # ('location': 'Virginia', 'name': 'Jarvis', 'status': 'alive'] 


* 修改 字典 一 删除 键 值 对 

del di[ 'b'] 

print(di) # {'c': -3, 'a': 1} 
d1. pop('c') 

print(di) # ('a': 1) 


# 获取 keys values 
print(d3.keys()) # dict keys(['status', 'name', 'location']) 
print(d3.values()) # dict values(['alive', 'Jarvis', 'Virginia']) 
for k,v in d3. items(): 
print('{}:\t{}'. format(k, v)) 
# name: Jarvis 
# location: Virginia 
# status: alive 


Python 中 的 列表 ,元 组 ,集合 和 字典 是 几 种 最 基本 的 数据 结构 ,使 用 起 来 非常 灵 
活 , 与 Python 的 一 些 语法 配合 会 非常 简洁 、 高 效 ,掌握 这 些 基 本 知识 和 操作 是 用 户 进 
行 后 续 开 发 的 基础 。 


1.3.2 ”逻辑 语句 


与 很 多 其 他 语言 一 样 ,Python 也 有 自己 的 条 件 语句 和 循环 语句 ,不 过 Python 中 
的 这 些 表示 程序 结构 的 语句 并 不 需要 用 括号 (例如 “(}”) 括 起 来 ,而 是 以 一 个 冒号 作 
为 结尾 ,以 缩 进 作为 语句 块 。if、else、elif 关键 字 是 条 件 选 择 语 句 的 关键 : 


a=1 
if a> 0: 
print( Positive') 
else: 
print('Negative') 
# 输出 : Positive 


b=2 
证 b<0: 
print('b is less than zero') 
elif b<3: 
print('b is not less than zero but less than three’) 
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elif b< 5: 

print('b is not less than three but less than five') 
else: 

print('b is equal to or greater than five') 
# 输出 : b is not less than zero but less than three 


熟悉 C/C++ 语言 的 用 户 可 能 很 希望 Python 提供 switch 语句 ,但 在 Python 中 并 
没有 这 个 关键 字 , 也 没有 这 个 语句 结构 ,用 户 可 以 通过 if-elif-elif-… 这 样 的 结构 代替 ， 


或 者 使 用 字典 实现 。 例 如 : 


d={ 
'+': lambda x, y: x + y, 
'-': lambda x, y: x - y, 


* ': lambda x, y: x * y, 
'/': lambda x, y: x / y 
) 
op = input() 
x 7 input() 
y 7 input() 


print(d[op](int(x), int(y))) 


这 段 代 码 实 现 的 功能 是 输入 一 个 运算 符 , 再 输入 两 个 数字 ， 
例如 输入 "十 12”, 输 出 “3”。 这 里 需要 说 明 的 是 ,input() 是 读 取 


返回 其 计算 的 结果 ， 
屏幕 输入 的 方法 (在 


Python 2 中 常用 的 raw_input() 不 是 一 个 好 选择 ) ,lambda 关键 字 代 表 了 Python 中 


的 匿名 函数 。 


Python 中 的 循环 语句 主要 有 两 种 ,一 种 的 标志 是 关键 字 for, 一 种 的 标志 是 关键 


字 while。 


Python 中 的 for 接收 可 和 迭代 对 象 (例如 list 或 欠 代 器 ) 作 为 参数 ,每 次 迭代 其 中 


一 个 元 素 : 


for item in [ ‘apple’, 'banana', 'pineapple', watermelon']: 
print(item,end- '\t') 
+ 输出 : apple banana pineapple watermelon 


for 还 经 常 与 range() 和 len() 一 起 使 用 : 


11= ['a', 'b', 'c', 'd'] 
for i in range(len(11)): 
print(i,li[i]) 


€ 
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# 输出 
* 0a 
#1b 
# 2c 
# 3d 


【提示 】 如 果 想 要 输出 列表 中 的 索引 和 对 应 的 元 素 ,除了 上 面 的 方法 以 外 ,还 有 
更 符合 Python 风格 的 方法 , 详 见 附录 A 中 的 enumerate( 枚 举 ) 说 明 。 
while 循环 的 形式 如 下 : 


while expression: 
while suit codes... 


语句 while suit codes 会 被 连续 不 断 地 循环 执行 ,直到 表达 式 的 值 为 False, 接 着 
Python 会 执行 下 一 名 代码。 在 for 循环 和 while 循环 中 也 会 用 到 break 和 continue 
关键 字 ,分 别 代表 终止 循环 和 跳 过 当 次 循环 开始 下 一 次 循环 : 


i=0 
while True: 
it=1 
if i % 2==0: 
continue + 当 i 为 偶数 时 跳 过 当 次 循环 开始 下 一 次 循环 
print(i, end- '\t') 
if i> 10: 
break 
pte pe 5 7 3 n 


说 到 循环 ,不 能 不 提 列 表 解 析 ( 或 者 翻译 为 "列表 推导 ”) ,在 形式 上 , 它 是 将 循环 
和 条 件 判 断 放 在 了 列表 的 “[]” 初 始 化 中 。 举 个 例子 ,构造 一 个 包含 10 以 内 的 所 有 奇 
数 的 列表 ,使 用 for 循环 添加 元 素 : 

uet] 


for i in range(11): 
* H range ()PR MAM start 参数 时 ,系统 自动 认为 从 0 开始 


ifi & 2sz1: 
11. append( i) 
print(11) # [1, 3, 5, 7, 9] 


使 用 列表 解析 : 
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11=[i for i in range(11) if i % 2 == 1] 
print(11) # [1, 3, 5, 7, 9] 


这 种 “推导 ”( 解 析 ) 也 适用 于 字典 和 和 集合。 在 这 里 没有 说 “元 组 ”, 是 因为 元 组 的 
括号 ( 圆 括号 ) 表 示 推 导 时 会 被 Python 识别 为 生成 器 ,关于 生成 器 的 具体 概念 ,可 以 
见 本 书 末 的 附录 A。 在 一 般 情况 下 ,如 果 需 要 快速 构建 一 个 元 组 ,可 以 选择 先进 行列 
表 推 导 , 再 使 用 tuple() 将 列表 “冻结 ”为 元 组 : 


# 使 用 推导 快速 反 转 一 个 字典 的 键 值 对 
di={'a': 1, 'b': 2, 'c': 3} 


d2 = (v: k fork, v in d1. items()} 
print(d2) EIU e WE E DERI E | 


# 下 面 的 语句 并 不 是 “元 组 "推导 

tl=(i ** 2 for i in range(5)) 
print(type(t1) ) # «class ‘generator » 
print(tuple(t1)) # (0, 1, 4, 9, 16) 


Python 中 的 异常 处 理 比 较 简单 ,核心 语句 是 try…except… 结 构 , 可 能 触发 异常 
产生 的 代码 会 放 到 try 语句 块 里 ,而 处 理 异常 的 代码 会 在 except 语句 块 里 实现 : 


try: 
dosomething. . 
except Error as e: 
dosomething. . 


异常 处 理 语句 也 可 以 写 得 非常 灵活 .例如 同时 处 理 多 个 异常 : 


# 处 理 多 个 异常 

try: 

file = open('test.txt', 'rb') 

except (IOError, E0FError) as e: + 同时 处 理 这 两 个 异常 
print("An error occurred. {}".format(e.args[ - 1])) 


# 另 一 种 处 理 这 两 个 异常 的 方式 
try: 

file = open('test.txt', 'rb') 
except EOFError as e: 

print("An EOF error occurred.") 


raise e 
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except IOError as e: 
print("An IO error occurred.") 


raisee 


E 处 理 所 有 异常 的 方式 
try: 
file = open('test.txt', 'rb') 
except Exception: # 捕获 所 有 异常 
print("Exception here.") 


有 时 候 ,在 异常 处 理 中 会 使 用 finally 语句 ,而 在 finally 语句 下 的 代码 块 无 论 异 
常 是 否 触发 都 将 会 被 执行 : 


try: 
file = open( 'test. txt', 'rb') 
except IOError as e: 
print('An IOError occurred. ()'.format(e.args[ - 1])) 
finally: 
print("This would be printed whether or not an exception occurred!") 


1.3.3 Python 中 的 函数 与 类 


在 Python 中 ,声明 和 定义 函数 使 用 def( 代 表 “define”) 语 句 , 在 缩 进 块 中 编写 函 
数 体 ,函数 的 返回 值 用 return 语句 返回 : 
def func(a, b): 


print('a is (),b is () '. format(a, b)) 
returna + b 


print(func(1, 2)) 
* aisl,bis2 
*3 


如 果 没 有 显 式 的 return 语句 ,函数 会 自动 返回 None。 另 外 ,用 户 也 可 以 使 函数 
一 次 返回 多 个 值 ,这 实际 上 是 一 个 元 组 : 
def func(a, b): 
print('a is {},b is {}'. format(a, b)) 


returnatb, a-b 


c= func(1,2) 
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# aisl,bis2 

print (type(c) ) # <class 'tuple> 

print(c) Ea Eee) 

对 于 暂时 不 想 实现 的 函数 ,可 以 使 用 “pass” 作 为 占 位 符 ,否则 Python 会 对 缩 进 
的 代码 块 报错 : 


def func(a, b): 
pass 


pass 也 可 用 于 其 他 地 方 , 比 如 让 和 for 循环 : 
BET 

pass 
else: 


print('2 > 3') 


for i in range(0,10): 
pass 


在 函数 中 可 以 设置 默认 参数 : 


def power(x,n = 2): 
return x ** n 


print(power(3)) #9 
print (power(3,3)) * 27 


当 有 多 个 默认 参数 时 会 按照 顺序 逐个 传人 ,用 户 也 可 以 在 调用 时 指定 参数 名 ， 


def powanddivide(x,n=2,m=1): 
return x ** n/m 


print(powanddivide(3,2,5)) 
print (powanddivide(3,m=1,n=2)) 


在 Python 中 类 使 用 “class” 关 键 字 定义 : 


class Player: 
name= "' 
def init (self,name): 
self.name - name 
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pll = Player( 'PlayerX') 
print(pli.name) # PlayerX 


在 定义 好 类 以 后 ,就 可 以 根据 类 创建 出 一 个 实例 。 在 类 中 的 函数 一 般 称 为 方法 ， 
简单 地 说 ,方法 就 是 与 实例 绑 定 的 函数 ,和 普通 函数 不 同 ,方法 可 以 直接 访问 或 操作 
实例 中 的 数据 。 

【提示 】 Python 中 的 方法 有 实例 方法 、 类 方法 、 静 态 方 法 之 分 ,该 部 分 是 Python 
面向 对 象 编程 中 的 一 个 重点 概念 ,但 是 这 里 为 了 简化 说 明 , 统 一 称 为 “方法 ”或 者 
“RA”, 

类 是 Python 编程 的 核心 概念 之 一 ,这 主要 是 因为 "Python 中 的 一 切 都 是 对 象 "。 一 
个 类 可 以 写 得 非常 复杂 ,下 面 的 代码 就 是 requests 模块 中 的 Request 类 及 其 _ init O 
方法 (部 分 代码 ): 


class Request (RequestHooksMixin): 
"""a user — created :class:'Request «Request >' object. 


Used to prepare a : class: 'PreparedRequest < PreparedRequest >', which is sent to the 
server. 


:param method: HTTP method to use. 

:param url: URL to send. 

:param headers: dictionary of headers to send. 

:param files: dictionary of (filename: fileobject) files to multipart upload. 

:param data: the body to attach to the request. If a dictionary is provided, form — 
encoding will take place. 

: param json: json for the body to attach to the request (if files or data is not 
specified). 

:param params: dictionary of URL parameters to append to the URL. 

:param auth: Auth handler or (user, pass) tuple. 

:param cookies: dictionary or CookieJar of cookies to attach to this request. 

:param hooks: dictionary of callback hooks, for internal usage. 


Usage:: 


>>> import requests 

>>> req = requests. Request ('GET', 'http://httpbin. org/get') 
>>> req. prepare ( ) 

< PreparedRequest [ GET ]> 


nnn 


def init (self, 
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method = None, url = None, headers = None, files = None, data = None, 
params = None, auth = None, cookies = None, hooks = None, json = None): 


# Default empty dicts for dict params. 


1.3.4 如 何 学 习 Python 


Python 语言 简洁 明快 ` 涵 盖 广 泛 且 不 烦琐 ,因此 受到 越 来 越 多 开发 者 的 欢迎 , 关 
于 Python 的 入 门 学 习 和 基础 知识 资料 也 越 来 越 多 。 如 果 读 者 想 系统 性 地 打 好 
Python 基础 ,可 以 阅读 Dive into Python f Learn Python the Hard Way 等 书籍 ; 如 
果 已 经 有 了 不 错 的 掌握 , 想 要 获得 一 些 相 对 “高 深 复 杂 ” 的 内 容 介 绍 , 可 以 参考 
Python the Cookbook il Fluent Python 等 资料 。 但 无 论 选择 哪些 资料 作为 参考 ,不 要 
A5 T "learn by doing”, 俗 话说 “ 光 说 不 练 假 把 式 ”, 一 切 都 要 从 代码 出 发 ,从 实践 出 发 ， 
动手 学 习 , 这 样 才能 取得 更 快 . 更 大 的 进步 。 本 书 的 附录 A 中 提供 了 Python 中 相对 
不 太 “ 简 单 ” 的 知识 ,一些 是 书 中 涉及 但 没有 详细 说 明 的 ,一 些 是 开发 者 经 常用 到 的 实 
用 内 容 , 也 可 供 读 者 参考 。 


1.4 互联 网 .HTTP 与 HTML 


1.4.1 互联 网 与 HTTP 协议 


互联 网 又 叫 国际 网 (Internet) ,是 指 网 络 与 网 络 之 间 所 连 成 的 庞大 网 络 ,这 些 网 
络 以 一 组 标准 的 网 络 TCP/IP 协议 族 相连 ,连接 全 世界 的 几 十 亿 个 设备 ,形成 逻辑 上 
的 单一 .巨大 国际 网 络 。 它 是 由 从 地 方 到 全 球 范围 内 的 几 百 万 个 私人 的 、 学 术 界 的 、 
企业 的 和 政府 的 网 络 所 构成 ,通过 电子 无线、 光纤 和 网 络 等 一 系列 技术 联系 在 一 
起 ( 见 图 1-20) 。 这 种 将 计算 机 网 络 互相 连接 在 一 起 的 方法 称 为 “网 络 互联 ”, 在 这 
个 基础 上 发 展 出 的 覆盖 全 世界 的 全 球 性 互联 网 络 称 为 互联 网 , 即 互相 连接 在 一 起 
的 网 络 。 

【提示 】 互联 网 并 不 等 于 万 维 网 (WWW), 万 维 网 只 是 一 个 基于 超 文本 相互 连 
接 而 成 的 全 球 性 系统 , 且 是 互联 网 所 能 提供 的 服务 之 一 。 互 联网 带 有 范围 广泛 的 信 
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息 资源 和 服务 ,例如 相互 关系 的 超 文 本 文件 ,还 有 万 维 网 的 应 用 、 支 持 电子 邮件 的 基 
础 设施 、 点 对 点 网 络 、 文 件 共享 以 及 IP 电话 服务 。 


图 1-20 全 球 互联 网 的 使 用 情况 


HTTP 是 一 个 客户 端 终端 (用 户 ) 和 服务 器 端 ( 网 站 ) 请 求 和 应 答 的 标准 ,通过 使 
用 网 页 浏览 器 、 网 络 仆 虫 或 者 其 他 工具 ,客户 端 可 以 发 起 一 个 HTTP 请 求 到 服务 器 
上 的 指定 端口 (默认 端口 为 80) ,通常 称 这 个 客户 端 为 用 户 代理 程序 (user agent)。 在 
应 答 的 服务 器 上 存储 着 一 些 资源 ,比如 HTML 文件 和 图 像 ,通常 称 这 个 应 答 服 务 器 
为 源 服务 器 (origin server)。 在 用 户 代理 和 源 服务 器 中 间 可 能 存在 多 个 “中 间 层 ”, 比 
如 代理 服务 器 、 网 关 或 者 隧道 (tunnel)。 尽 管 TCP/IP 协议 是 互联 网 上 最 流行 的 应 


用 ,在 HTTP 中 却 没有 规定 必须 使 用 它 或 它 支持 的 层 。 

事实 上 ,HTTP 可 以 在 任何 互联 网 协议 上 或 其 他 网 络 上 实现 。HTTP 假定 其 下 
层 协议 提供 可 靠 的 传输 ,因此 任何 能 够 提供 这 种 保证 的 协议 都 可 以 被 其 使 用 ,也 就 是 
其 在 TCP/IP 协议 族 使 用 TCP 作为 传输 层 。 通 常 ,由 HTTP 客户 端 发 起 一 个 请 求 ， 
创建 一 个 到 服务 器 指定 端口 (默认 是 80 端口 ) 的 TCP 连接 ,HTTP 服务 器 则 在 那个 
端口 监听 客户 端的 请 求 ,一 旦 收 到 请 求 ,服务 器 会 向 客户 端 返回 一 个 状态 ,比如 
“HTTP/1.1 200 OK”, 以 及 返回 一 些 内 容 ,例如 请 求 的 文件 、 错 误 消 息 或 者 其 他 


信息 。 
HTTP 的 请 求 方法 有 很 多 种 ,主要 如 下 。 
* GET; 向 指定 的 资源 发 出 “显示 ”请 求 。GET 方法 应 该 只 用 于 读 取 数据 ,而 不 
应 该 被 用 于 产生 “副作用 ”的 操作 中 (例如 Web Application 中 ), 其 中 一 个 原 
因 是 GET 可 能 会 被 网 络 蜂 蛛 等 随意 访问 。 
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HEAD: 5j GET 方法 一 样 ,都 是 向 服务 器 发 出 指定 资源 的 请 求 , 只 不 过 服务 
器 不 传 回 资源 的 内 容 部 分 。 使 用 该 方法 的 好 处 在 于 可 以 在 不 传输 全 部 内 容 
的 情况 下 就 能 获取 其 中 关于 该 资源 的 信息 (元 信息 或 称 元 数据 ) 。 

POST; 向 指定 资源 提交 数据 ,请 求 服务 器 进行 处 理 ( 例 如 提交 表单 或 者 上 传 
文件 )。 数 据 被 包含 在 请 求 文本 中 。 这 个 请 求 可 能 会 创建 新 的 资源 或 修改 现 
有 资源 ROKE. 

PUT: 向 指定 资源 位 置 上 传 其 最 新 内 容 。 

DELETE: 请 求 服务 器 删除 Request-URI 所 标识 的 资源 。 

TRACE: 回 显 服务 器 收 到 的 请 求 , 主 要 用 于 测试 或 诊断 。 

OPTIONS: 这 个 方法 可 以 使 服务 器 传 回 该 资源 支持 的 所 有 HTTP 请 求 方 
法 。 通 常用 * "来 代替 资源 名 称 , 向 Web 服务 器 发 送 OPTIONS 请 求 ,可 以 
测试 服务 器 的 功能 是 否 正常 运作 。 

CONNECT: HTTP 1.1 中 预 留 给 能 够 将 连接 改 为 管道 方式 的 代理 服务 器 ， 
通常 用 于 SSL 加 密 服务 器 的 连接 (经 由 非 加 密 的 HTTP 代理 服务 器 ) 。 其 方 
法 的 名 称 是 区 分 大 小 写 的 。 当 某 个 请 求 针 对 的 资源 不 支持 对 应 的 请 求 方法 
的 时 候 , 服 务 器 应 当 返 回 状态 码 405(Method Not Allowed) , 当 服务 器 不 认 
识 或 者 不 支持 对 应 的 请 求 方 法 的 时 候 ,应 当 返 回 状态 码 501 (Not 


Implemented) 。 


1.4.2 HTML 


HTML(HyperText Markup Language) 是 指 超 文本 标记 语言 , 它 是 一 种 用 于 创 
建 网 页 的 标准 标记 语言 。 与 HTTP 不 同 的 是 ,HTML 是 一 种 基础 技术 , 常 与 CSS、 
JavaScript 一 起 被 众多 网 站 用 于 设计 令 人 赏心悦目 的 网 页 、 网 页 应 用 程序 以 及 移动 应 
用 程序 的 用 户 界面 。 网 页 浏览 器 可 以 读 取 HTML 文件 ,并 将 其 泻 染 成 可 视 化 网 页 。 
HTML 描述 了 一 个 网 站 的 结构 语义 随 着 线索 的 呈现 方式 ,使 之 成 为 一 种 标记 语言 而 
非 编 程 语言 。HTML 元 素 是 构建 网 站 的 基石 。HTML 允许 嵌入 图 像 与 对 象 ,并 且 
可 以 用 于 创建 交互 式 表 单 , 它 被 用 来 结构 化 信息 ,例如 标题 .段落 和 列表 等 ,也 可 用 来 
在 一 定 程度 上 描述 文档 的 外 观 和 语义 。HTML 的 语言 形式 为 尖 括 号 包围 的 HTML 
元 素 ( 例 如 < html >) ,浏览 器 使 用 HTML 标签 和 脚本 来 诠释 网 页 内 容 , 但 不 会 将 它们 
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显示 在 页 面 上 。HTML 可 以 嵌入 JavaScript 等 脚本 语言 ,它们 会 影响 HTML 网 页 
的 行为 。 网 页 浏览 器 也 可 以 引用 层 到 样式 表 (CSS) 来 定义 文本 和 其 他 元 素 的 外 观 与 
布局 。 维护 HTML 和 CSS 标准 的 组 织 一 一 万 维 网 联盟 (W3C) 鼓 励 人 们 使 用 CSS fX 
替 一 些 用 于 表现 的 HTML 元 素 。 

HTML 标记 包含 标签 (及 其 属性 ) 、 基 于 字符 的 数据 类 型 .字符 引用 和 实体 引用 
等 几 个 关键 部 分 。HTML 标签 是 最 常见 的 ,通常 成 对 出 现 ,例如 < hl > 与 </hl >. 在 
这 些 成 对 出 现 的 标签 中 ,第 一 个 标签 是 开始 标签 ,第 二 个 标签 是 结束 标签 。 两 个 标签 
之 间 为 元 素 的 内 容 , 有 些 标 签 没有 内 容 ,为 空 元 素 , 例 如 < img >。HTML 的 另 一 个 重 
要 组 成 部 分 为 文档 类 型 声明 , 它 会 触发 标准 模式 泻 染 。 

HTML XP KE AY HTML 元 素 构成 ,它们 用 HTML 标签 表示 ,包含 于 尖 括 
号 中 ,例如 < p >。 在 一 般 情 况 下 ,一 个 元 素 由 一 对 标签 表示 ,例如 开始 标签 < p > 与 结 
东 标 签 </p >。 如 果 元 素 含 有 文本 内 容 , 就 会 被 放置 在 这 些 标 签 之 间 。 在 开始 标签 与 
结束 标签 之 间 也 可 以 封装 另外 的 标签 ,包括 标签 与 文本 的 混合 。 这 些 骨 套 元 素 是 父 
元 素 的 子 元 素 。 开 始 标签 也 可 以 包含 标签 属性 。 这 些 属 性 有 标识 文档 区 段 .将 样式 
信息 绑 定 到 文档 演示 ,以 及 为 < img > 等 标签 嵌入 图 像 . 引 用 图 像 来 源 等 作用 。 一 些 元 
素 ( 如 换行 符 < br >) 不 允许 嵌入 任何 内 容 , 无 论 是 文字 还 是 其 他 标签 。 这 些 元 素 只 需 
一 个 单一 的 空 标签 (类 似 于 一 个 开始 标签 ) ,无 须 结束 标签 。 许 多 标签 是 可 选 的 ,万 
其 是 很 常用 的 段落 元 素 <p> 的 闭合 端 标签 。HTML 浏览 器 或 其 他 媒介 可 以 从 上 下 
文 识别 出 元 素 的 闭合 端 以 及 由 HTML 标准 所 定义 的 结构 规则 ,这 些 规则 非常 

一 个 HTML 元 素 的 一 般 形 式 为 “< 标签 属性 = "(EE 1" 属 性 2— " 值 2"> 内 容 </ 标 
签 >,” 一 个 HTML 元 素 的 名 称 即 为 标签 使 用 的 名 称 。 注 意 ,在 结束 标签 的 名 称 前 面 
有 一 个 斜 枉 "/”, 空 元 素 不 需要 也 不 允许 结束 标签 。 如 果 元 素 属 性 未 标明 , 则 使 用 其 
默认 值 。 

HTML 文档 的 页 眉 为 < head >...</head > 部 分 。 标 题 被 包含 在 头 部 ,例如 : 


<head> 
<title> Title </title> 
</head> 


HTML 标题 由 < hl >~< h6 > 共 6 个 标签 构成 ,字体 由 大 到 小 递减 : 
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< hl > 标题 1 </hl > 
< h2 > 标题 2 </h2 > 
< h3 > 标题 3 </h3 > 
< h4 > 标题 4 </h4 > 
< h5 > 标题 5 </h5 > 
< h6 > 标题 6 </h6 > 


段落 : 


<p> 第 一 段 </p> 
<p> 第 二 段 </p> 


换行 符 为 < br >。< br > 与 < p > 的 差异 在 于 ,< br > 换行 但 不 改变 页 面 的 语义 结 
构 ,而 < p> 部 分 的 页 面 成 段 。 


<p> 
这 是 一 个 < br > 使 用 br < br > 换行 < br > 的 段落 。 
</p> 


通常 使 用 < a > 标签 创建 链接 ,href 王 属性 包含 链接 的 URL 地 址 。 
<a href = "http://www. baidu. com"> 一 个 指向 百度 的 链接 </a> 
注释 : 


<! -- 这 是 一 行 注释 --> 


大 多 数 元 素 的 属性 以 “名 称 - 值 ” 的 形式 成 对 出 现 ,由 “二 "分离 并 写 在 开始 标签 元 
素 名 之 后 。 值 一 般 由 单 引 号 或 双 引 号 包围 有些 值 的 内 容 包 含 特定 字符 ,在 HTML 
中 可 以 去 掉 引 号 (XHTML 不 行 )。 不 加 引号 的 属性 值 被 认为 是 不 安全 的 。 有 些 属性 
无 须 成 对 出 现 , 仅 存在 于 开始 标签 中 即 可 影响 元 素 ,例如 img 元 素 的 ismap 属性 。 需 
要 注意 的 是 ,许多 元 素 存在 一 些 共同 的 属性 。 
。 id 属性 : 为 元 素 提供 了 在 全 文档 内 的 唯一 标识 。 它 用 于 识别 元 素 , 以 便 样式 
表 可 以 改变 其 表现 属性 ,脚本 可 以 改变 .显示 或 删除 其 内 容 或 者 格式 化 。 对 
于 加 到 页 面 的 URL, 它 为 元 素 提 供 了 一 个 全 局 唯一 标识 ,通常 为 页 面 的 子 
章节 。 


* class 属性 : 提供 一 种 将 类 似 元 素 分 类 的 方式 , 常 被 用 于 语义 化 或 格式 化 。 例 
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如 ,一 个 HTML 文档 可 指定 类 class 一 "标记 "来 表明 所 有 具有 这 类 值 的 元 素 
都 从 属于 文档 的 主 文本 。 在 格式 化 后 ,这 样 的 元 素 可 能 会 聚集 在 一 起 ,并 作 
为 页 面 脚注 ,而 不 会 出 现在 HTML 代码 中 。 类 属性 也 被 用 于 微 格 式 的 语义 
化 。 类 值 也 可 以 进行 多 声明 ,例如 class 二 "标记 重要 "将 元 素 同 时 放 入 “ 标 
记 ” 与 “重要 ”两 个 类 中 。 

style 属性 : 可 以 将 表现 性 质 赋予 一 个 特定 元 素 。 与 使 用 id 或 class 属性 从 样 
式 表 中 选择 元 素 相 比 ,使 用 style 被 认为 是 更 好 的 做 法 ,尽管 有 时 这 对 于 一 个 
简单 .专用 或 特别 的 样式 显得 太 烦 琐 。 

title 属性 : 用 于 给 元 素 一 个 附加 的 说 明 。 在 大 多 数 浏览 器 中 这 一 属性 显示 为 
工具 提示 。 


1.5 HelloSpider 


在 掌握 了 编写 Python fé rf ris AY fe a ARZ JE «HH Pr RT VA EF S 96 — A 
HORE D. PE HE} Br — A LE (ij 90 89 fe tU PRU ,并 由 此 展开 进一步 的 讨论 。 


1.5.1 BN em ROT 


在 各 大 编程 语言 中 ,初学 者 要 学 会 编写 的 第 一 个 简单 程序 一 般 是 “Hello， 
World!”, 即 通过 程序 在 屏幕 上 输出 一 行 *“Hello,， World!”。 在 Python 中 只 需要 一 行 
代码 就 可 以 做 到 。 我 们 把 这 第 一 个 候 虫 就 称 为 “HelloSpider”, 见 例 1-1。 

【 例 1-1】 HelloSpider. py, 一 个 最 简单 的 Python W RER 

import lxml.html,requests 

url = 'https://www. python. org/dev/peps/pep - 0020/ ' 

xpath = '// * [(Zid- "the - zen - of - python" ]/pre/text()' 

res = requests.get(url) 

ht = lxml.html.fromstring(res.text) 


text - ht.xpath(xpath) 
print('Hello, \n' + ''. join(text)) 


执行 这 个 程序 ,在 终端 中 运行 以 下 命令 (也 可 以 在 IDE 中 单 击 “ 运 行 ”按钮 ) : 


python HelloSpider.py 
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用 户 很 快 就 能 看 到 输出 如 下 : 
Hello, 


Beautiful is better than ugly. 

Explicit is better than implicit. 

Simple is better than complex. 

Complex is better than complicated. 

Flat is better than nested. 

Sparse is better than dense. 

Readability counts. 

Special cases aren't special enough to break the rules. 

Although practicality beats purity. 

Errors should never pass silently. 

Unless explicitly silenced. 

In the face of ambiguity, refuse the temptation to guess. 

There should be one -— and preferably only one —- obvious way to do it. 
Although that way may not be obvious at first unless you're Dutch. 
Now is better than never. 

Although never is often better than * right * now. 

If the implementation is hard to explain, it's a bad idea. 

If the implementation is easy to explain, it may be a good idea. 
Namespaces are one honking great idea -- let's do more of those! 


不 错 , 这 正 是 “Python ZP” HY P E AREF SX Y. — A R 45 E rb Fe Jr: foc 3n AY 
流程 , 即 访问 站 点 一 定位 所 需 的 信息 一 得 到 并 处 理 信息 。 接 下 来 看 看 每 一 行 代码 都 
做 了 什么 : 


import lxml. html, requests 


在 这 里 使 用 import 导入 了 两 个 模块 ,分 别 是 lxml 库 中 的 html 以 及 Python 中 著 
名 的 requests 库 。lxml 是 用 于 解析 XML 和 HTML 的 工具 ,可 以 使 用 xpath 和 css 
来 定位 元 素 , 而 requests 是 著名 的 Python HTTP JE ,其 口号 是 “给 人 类 用 的 HTTP”, 
与 Python 自 带 的 urllib 库 相 比 ,requests 有 不 少 优点 ,使 用 起 来 十 分 简单 ,接口 设计 
也 非常 合理 。 实 际 上 ,如 果 读 者 对 Python 比较 熟悉 ,就 会 知道 在 Python 2 中 存在 着 
urllib ,urllib2 ,urllib3 httplib .httplib2 等 一 堆 让 人 容易 混淆 的 库 , 可 能 官方 也 察觉 到 
了 这 个 缺点 ,因此 Python 3 中 的 新 标准 库 urllib 比 Python 2 中 的 好 用 一 些 。 曾 有 人 
在 网 上 问 道 “urllib urllib2 ,urllib3 的 区 别 是 什么 ? 怎么 用 ?”, 有 人 回答 “为 什么 不 去 
用 requests 呢 ?”, 可 见 requests 的 确 有 着 十 分 突出 的 优点 。 同 时 建议 读者 (尤其 是 刚 
Vi] B f pd 26 EA A f FH. requests, 可 谓 省 时 、 省 力 。 
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url= 'https://www. python. org/dev/peps/pep — 0020/" 
xpath- '// * [@id= "the- zen- of — python" ]/pre/text() ' 


这 里 定义 了 两 个 变量 ,Python 不 需要 声明 变量 的 类 型 ,url 和 xpath 会 自动 被 识 
别 为 字符 串 类 型 。url 是 一 个 网 页 的 链接 ,可 以 直接 在 浏览 器 中 打开 ,该 页 面 中 包含 
T "Python 之 禅 ” 的 文本 信息 。xpath 变量 则 是 一 个 xpath 路 径 表 达 式 ,刚才 提 到 ， 
lxml 库 可 以 使 用 xpath 来 定位 元 素 , 当 然 ,定位 网 页 中 元 素 的 方法 不 止 xpath 一 种 ， 
本 书后 面 会 介绍 更 多 的 定位 方法 。 


res = requests. get (url) 


这 里 使 用 了 requests 中 的 get() 方 法 对 url 发 送 了 一 个 HTTP GET 请 求 ,返回 
值 被 赋 给 res, 于 是 用 户 便 得 到 了 一 个 名 为 res 的 Response 对 象 , 接 下 来 就 可 以 从 这 
个 Response 对 象 中 获取 想 要 的 信息 。 


ht = lxml. html. fromstring(res. text) 


lxml. html 是 Ixml 下 的 一 个 模块 ,顾名思义 , 它 主要 负责 处 理 HTML. 
fromstring() 方 法 传人 的 参数 是 res. text, 即 上 面 提 到 的 Response 对 象 的 text( 文 本 ) 
内 容 。 在 fromstring() 的 doc string 中 (文档 字符 串 , 即 这 个 方法 的 说 明 ) 说 到 ,这 个 
方法 可 以 “Parse the html. returning a single element/document. ". Bl fromstring() 根 
据 这 段 文本 来 构建 一 个 lxml 中 的 HtmlElement 对 象 。 


text = ht.xpath(xpath) 
print('Hello,\n'+ ''. join(text)) 


这 两 行 代 码 使 用 xpath 定位 HtmlElement 中 的 信息 ,并 进行 输出 。text 就 是 用 
户 得 到 的 结果 .join() "是 一 个 字符 串 方法 ,用 于 将 序列 中 的 元 素 以 指定 的 字符 连接 
生成 一 个 新 的 字符 串 。 因 为 text 是 一 个 list 对 象 ,所 以 使 用 '' 这 个 空 字符 来 连接 。 如 
果 不 进行 这 个 操作 而 直接 输出 : 


print( 'Hello, \n' + text) 


程序 会 报错 ,出 现 “TypeError: Can't convert 'list' object to str implicitly” 这 样 的 错 
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误 。 当 然 , 对 于 list 序列 而 言 ,还 可 以 通过 一 段 循环 输出 其 中 的 内 容 。 
值得 一 提 的 是 ,如 果 不 使 用 requests 而 使 用 Python 3 的 urllib 完成 以 上 操作 , 需 
要 把 其 中 的 两 行 代码 改 为 : 


res= urllib. request. urlopen(url). read(). decode( 'utf - 8') 
ht = lxml. html. fromstring(res) 


其 中 的 urllib 是 Python 3 的 标准 库 , 包 含 了 很 多 基本 功能 ,比如 向 网 络 请 求 数据 、 处 
Jl cookie、 自 定义 请 求 头 (headers) 等 。urlopen() 方 法 用 来 通过 网 络 打 开 并 读 取 远程 
对 象 ,包括 HTML、 媒 体 文件 等 。 显然 ,就 代码 量 而 言 ,其 工作 量 要 比 requests 大 ,而 
且 看 起 来 也 不 太 简 洁 。 

Dg] urllib 是 Python 3 的 标准 库 , 虽 然 在 本 书 中 主要 使 用 requests 来 代替 
urllib 的 某 些 功能 ,但 作为 官方 工具 ,urllib 仍然 值得 用 户 进一步 了 解 ,在 疏 虫 程序 实 
践 中 也 可 能 会 用 到 urllib 中 的 有 关 功 能 。 有 兴趣 的 读者 可 以 阅读 urllib 的 官方 文档 ， 
网 址 为 “https://docs. python. org/3/library/urllib. html” ,其 中 给 出 了 详尽 的 说 明 。 


1.5.2. xen frm ds 
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点 (一 般 为 一 个 URL 地 址 提取 其 中 的 特定 信息 ,之 后 对 数据 进行 处 理 ( 在 这 个 例子 
中 只 是 简单 地 输出 )。 当 然 , 根 据 具体 的 应 用 场景 , 怜 虫 可 能 还 需要 很 多 其 他 功能 , 例 
如 自动 抓 取 多 个 页 面 、 处 理 表单 、 对 数据 进行 存储 或 者 清洗 等 。 

其 实 , 如 果 用 户 只 是 想 获 取 特 定 网 站 提供 的 关键 数据 ,由 于 每 个 网 站 都 提供 了 自 
己 的 API (应 用 程序 接口 ,Application Programming Interface) ,那么 用 户 对 于 网 络 疏 
虫 的 需求 可 能 就 没有 那么 大 了 。 毕 竟 , 如 果 网 站 已 经 为 用 户 准 备 好 了 特定 格式 的 数 
据 , 只 需要 访问 API 就 能 够 得 到 所 需 的 信息 ,那么 又 有 谁 愿意 费时 费力 地 编写 复杂 的 
信息 抽取 程序 呢 ? 现实 是 ,虽然 有 很 多 网 站 提供 了 可 供 普 通用 户 使 用 的 API, 但 其 中 
的 很 多 功能 往往 是 面向 商业 的 收费 服务 。 另 外 ,API 毕竟 是 官方 定义 的 ,免费 的 格式 
化 数据 不 一 定 能 够 满足 用 户 的 需求 。 掌 握 一 些 网 络 怜 虫 的 编写 ,不 仅 能 够 做 出 只 属 
于 自己 的 功能 ,还 能 在 某 种 程度 上 拥有 一 个 高 度 个 性 化 的 “浏览 器 ”, 因 此 学 习 忠 虫 的 
相关 知识 还 是 很 有 必要 的 。 
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站 的 规定 以 及 公 序 良 俗 的 。2013 年 曾 有 这 样 的 报道 : 百度 起 诉 奇 虎 360 公司 违反 
“Robots 协议 ? 抓 取 、 复 制 其 网 站 内 容 的 不 正当 竞争 行为 ,并 索赔 1 亿 元 人 民 币 .? A 
度 认为 360 公司 违反 Robots 协议 , 抓 取 百度 知道 .百科 等 数据 ,而 法 院 表 示 ,尊重 
Robots 协议 和 平台 对 UGC (User Generated Content, 用 户 原创 内 容 ) 数 据 的 权益 ， 
360 公司 也 因此 被 判 赔偿 百度 70 7376. 2014 年 8 月 微 博 宣布 停止 脉 脉 使 用 的 微 博 
开放 平台 的 所 有 接口 ,理由 是 “ 脉 脉 通过 恶意 抓 取 行 为 获得 并 使 用 了 未 经 微 博 用 户 授 
权 的 档案 数据 ,违反 微 博 开放 平台 的 开发 者 协议 ”。 最 新 出 台 的 《网 络 安全 法 》 也 对 企 
业 使 用 爬虫 技术 来 获取 网 络 上 及 用 户 的 特定 信息 这 一 行为 做 出 了 一 些 规定 2, 可 以 说 
疏 虫 程序 方兴未艾 , 随 着 互联 网 业界 的 发 展 , 对 于 疏 虫 程序 的 秩序 也 提出 了 新 的 要 
求 。 对 于 普通 个 人 开发 者 而 言 ,一 般 需 要 注意 以 下 几 点 。 

* 不 应 该 访问 和 抓 取 某 些 充 满 不 良 信息 的 网 站 ,包括 一 些 充斥 暴力 色情 或 反 

动 信息 的 网 站 。 

。 始终 注意 版 权 : 如 果 用 户 想 爬 取 的 信息 是 其 他 作者 的 原创 内 容 , 未 经 作者 或 
版 权 所 有 者 的 授权 ,请 不 要 将 这 些 信息 用 作 其 他 用 途 , 尤 其 是 商业 方面 的 
行为 。 
保持 对 网 站 的 善意 : 如 果 用 户 没 有 经 过 网 站 运营 者 的 同意 ,使 得 怜 虫 程序 对 
目标 网 站 的 性 能 产生 了 一 定 影响 ,造成 了 服务 器 资源 的 大 量 浪费 ,那么 且 不 
说 法 律 层面 ,至 少 这 也 是 不 道德 的 。 用 户 的 出 发 点 应 该 是 一 个 息 虫 技术 的 爱 
好 者 ,而 不 是 一 个 试图 攻击 网 站 的 黑客 .尤其 是 对 于 分 布 式 大 规模 爬虫 ,更 需 
要 注意 这 一 点 .@ 

”请 遵循 robots. txt 和 网 站 服务 协议 : robots. txt 文件 只 是 一 个 “君子 协议 ”, 并 
没有 强制 性 约束 疏 虫 程序 的 能 力 , 只 是 表达 了 * 请 不 要 抓 取 本 网 站 的 这 些 信 
息 ” 的 意向 。 在 实际 的 疏 虫 程序 的 编写 过 程 中 ,用 户 应 该 尽 可 能 遵循 robots 
. txt 的 内 容 , 尤 其 是 当 自 己 的 仆 虫 无 节制 地 抓 取 网 站 内 容 时 ,如 果 有 必要 ,应 


© 新 闻 来 源 于 “https://www. huxiu. com/article/21532/1. html". 

© 见 “https://36kr. com/p/5078918. html". 

G ”有 兴趣 的 读者 可 以 了 解 美国 (计算 机 若 诈 与 小 用 法 》 的 相关 事宜 ,内 容 见 “http://www. infseclaw. net/news/ 
html/937. html”, 
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该 查询 并 牢记 网 站 服务 协议 中 的 相关 说 明 。 
GER] Robots 协议 虽然 没有 强制 性 ,但 一 般 是 会 受 法 律 承认 的 。 美 国联 邦 法 
院 早 于 2000 年 就 在 eBay vs Bedder's Edge 一 案 中 支持 了 eBay 屏蔽 BE 爬虫 的 主 
K; 北京 第 一 中 级 人 民法 院 于 2006 年 在 审理 泛 亚 起 诉 百度 侵权 案 中 也 认定 网 站 有 权 
利用 设置 的 robots. txt 文件 拒绝 搜索 引擎 (百度 ) 的 收录 ,可 见 Robots 协议 在 互联 网 
业界 和 司法 界 都 得 到 了 认可 。 
关于 robots. txt 文件 的 具体 内 容 , 将 在 下 一 节 调研 分 析 网 站 的 过 程 中 继续 介绍 。 


1.6 调研 网 站 


1.6.1 网 站 的 robots. txt 与 Sitemap 


一 般 而 言 ,网 站 都 会 提供 自己 的 robots. txt 文件 ,正如 上 文 所 说 ,Robots 协议 旨 
在 让 网 站 访问 者 (或 访问 程序 ) 了 解 该 网 站 的 信息 疏 取 限制 。 在 用 户 的 程序 爬 取 网 站 
之 前 ,检查 这 一 文件 中 的 内 容 可 以 降低 怜 虫 程序 被 网 站 的 反 疏 虫 机 制 封禁 的 风险 。 
下 面 是 百度 的 robots. txt 中 的 部 分 内 容 , 用 户 可 以 访问 “www. baidu. com/robots. 
txt” 来 获取 。 


User - agent: Googlebot 
Disallow: /baidu 

Disallow: /s? 

Disallow: /shifen/ 
Disallow: /homepage/ 
Disallow: /cpro 

Disallow: /ulink? 
Disallow: /link? 

Disallow: /home/news/data/ 


User - agent: MSNBot 
Disallow: /baidu 

Disallow: /s? 

Disallow: /shifen/ 
Disallow: /homepage/ 
Disallow: /cpro 

Disallow: /ulink? 
Disallow: /link? 

Disallow: /home/news/data/ 
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robots. txt 文件 没有 标准 的 “语法 ”, 但 网 站 一 般 都 遵循 业界 共有 的 习惯 。 该 文件 
的 第 1 行内 容 是 User-agent: ,表明 哪些 机 器 人 (程序 ) 需 要 遵守 下 面 的 规则 ,后 面 是 
一 组 Disallow: ,决定 是 否 允 许 该 User-agent 访问 网 站 的 这 部 分 内 容 。 另 外 , 星 号 (* ) 为 
通配符 。 如 果 一 个 规则 后 面 跟着 一 个 矛盾 的 规则 , 则 以 后 一 条 为 准 。 可 见 , 百 度 的 
robots. txt 对 Googlebot 和 MSNBot 给 出 了 一 些 限制 。robots. txt 可 能 还 会 规定 
Crawl-delay , Bil MG H 9f Hx HEIR . WE Fd P! E robots. txt 中 发 现 有 “Crawl-delay:5” 的 字 
样 ,那么 说 明 网 站 希望 用 户 的 程序 能 够 在 两 次 下 载 请 求 中 给 出 5 秒 的 下 载 间隔 。 

用 户 可 以 使 用 Python 3 自 带 的 robotparser 工具 来 解析 robots. txt 文件 并 指导 
FH ctf f ds. MA iiS FE Robots PMMA FEY URL, 只 要 在 代码 中 用 “import 
urllib. robotparser” 导 入 这 个 模块 即 可 使 用 , 详 见 例 1-2。 

【 例 1-2] robotparser. py, 使 用 robotparser 工具 。 


import urllib. robotparser as urobot 
import requests 


url = "https://www. taobao. con/" 

rp 7 urobot. RobotFileParser() 

rp.set url(url * "/robots.txt") 

rp. read() 

user agent = 'Baiduspider' 

if rp.can fetch(user agent, ‘https: //www. taobao. con/ product/ ') : 
Site- requests.get(url) 
print('seems good') 

else: 
print("cannot scrap because robots.txt banned you!") 


E E i HUE P dT I Hui E I] Cw ww. taobao. com) , 先 看 看 它 的 robots. txt 
中 的 内 容 , 访 问 “www. taobao. com/robots. txt” 即 可 获取 : 


User-agent: Baiduspider 
Allow: /article 

Allow: /oshtml 

Allow: /wenzhang 
Disallow: /product/ 
Disallow: / 


对 于 Baiduspider iX 4+ Hl PARI., if E PA fb VF MR CU / product/ 91 mi , fù HF ME Xi 
/article 页 面 , 因 此 执行 刚才 的 示例 程序 输出 的 结果 如 下 : 
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cannot scrap because robots.txt banned you! 


如 果 将 其 中 的 “https://www. taobao. com/product/" BW “https://www. 
taobao. com/article”, 输 出 结果 变 为 : 


seems good 


说 明 程 序 运 行 成 功 。Python 3 中 的 robotparser 是 urllib 下 的 一 个 模块 ,因此 先导 入 
它 。 在 下 面 的 代码 中 首先 创建 了 一 个 名 为 rp 的 RobotFileParser 对 象 ,之 后 rp 加 载 
了 对 应 网 站 的 robots. txt 文件 ,在 将 User. agent iX Jy Baiduspider 后 ,使 用 can. fetch 
方法 测试 该 用 户 代理 是 否 可 以 候 取 URL 对 应 的 网 页 。 当 然 ,为 了 把 这 个 功能 在 真正 
的 息 虫 程序 中 实现 ,需要 一 个 循环 语句 不 断 检查 新 的 网 页 ,类 似 下 面 的 形式 : 


for i in urls: 


try: 
if rp.can fetch(" *", newurl): 
site = urllib. request. urlopen(newurl) 


except: 


有 时 候 robots. txt 还 会 定义 一 个 Sitemap, 即 站 点 地 图 。 站 点 地 图 (或 者 叫 网 站 
地 图 ) 可 以 是 一 个 任意 形式 的 文档 ,一 般 而 言 ,在 站 点 地 图 中 会 列 出 该 网 站 中 的 所 有 
页 面 ,通常 采用 一 定 的 格式 (例如 分 级 形式 ) ,这 有 助 于 访问 者 以 及 搜索 引擎 的 疏 虫 找 
到 网 站 中 的 各 个 页 面 ,因此 网 站 地 图 在 SEO (Search. Engine Optimization ,搜索 引擎 
优化 ) 领 域 扮演 了 很 重要 的 角色 。 

【提示 】 什么 是 SEO? SEO 是 指 在 搜索 引擎 的 自然 排名 机 制 的 基础 上 对 网 站 
进行 某 些 调整 和 优化 ,从 而 改进 该 网 站 在 搜索 引擎 结果 中 的 关键 词 排名 ,使 得 网 站 能 
够 获得 更 多 用 户 流量 的 过 程 。 站 点 地 图 (Sitemap) 能 够 帮助 搜索 引擎 更 智能 、 高 效 地 
抓 取 网 站 内 容 , 因 此 完善 和 维护 站 点 地 图 是 SEO 的 基本 方法 之 一 。 对 于 国内 网 站 而 
言 ,百度 SEO 是 站 长 做 好 网 站 运营 和 管理 的 重要 一 环 。 

用 户 可 以 进一步 检查 这 个 文件 。 下 面 是 豆瓣 网 的 robots. txt 中 定义 的 Sitemap. 
可 访问 “www. douban. com/robots. txt” 来 获取 。 
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Sitemap:https://www.douban.com/sitemap index.xml 
Sitemap:https://www.douban.com/sitemap updated index. xml 


Sitemap Cii c stb ED n] f$ BI f d Ee ze [vr TA AE TOT Ec rp f Be AE 
图 1-21 所 示 。 


v«sitemapindex xmlns-"http://www.sitemaps.org/schemas/sitemap/0.9"» 
v<sitemap> 
<loc>https://www.douban.com/sitemap_updated.xml.gz</loc> 
*«1astmod»2017-10-09722:00:222«/1astmod» 
</sitemap> 
v<sitemap> 
<loc>https: //www.douban.com/sitemap_updated1.xml.gz</loc> 
<lastmod>2017-10-09T22:00:222</lastmod> 
</sitemap> 
¥<sitemap> 
<loc>https: //www.douban.com/sitemap_updated2.xml.gz</loc> 
<lastmod>2017-10-09T22:00:222</lastmod> 
</sitemap> 
v «sitemap» 
<loc>https: //www.douban.com/sitemap_updated3.xml.gz</loc> 
<lastmod>2017-10-09922:00:222</lastmod> 


</sitemap> 


图 1-21 DHEA) Sitemap 链接 中 的 部 分 内 容 


由 于 网 站 规模 较 大 , Sitemap 以 多 个 文件 的 形式 给 出 ,下 载 其 中 的 一 个 文件 
(sitemap. updated. xml) 并 查看 其 内 容 , 如 图 1-22 所 示 。 


mi version-^11 moru 
<uriset xminsz"http://www.sitemaps.org/schemas/sitemap/0.9*»- 


«ut 
“<loc>https:/www.douban.com/<oc> 
<priority>1.0</priority> 
<changetreq>daily</changefreq> 

«urb. 

<ur 
<ioc>https://www.douban.com/explore/</ioc> 
<priority>0.9</pri 


«urb. 

-<loc>https://www.douban.com/online/</loc> 

<priority>0.9</priority> 
<changetreq>daily</changetreq> 

«ur» 


图 1-22 =] Sitemap updated. xml 中 的 内 容 


观察 可 知 ,在 这 个 网 站 地 图 文件 中 提供 了 豆瓣 网 最 近 更 新 的 所 有 网 页 的 链接 地 


址 ,如 果 用 户 的 程序 能 够 有 效 地 使 用 其 中 的 信息 ,那么 无 疑 会 成 为 仆 取 网 站 的 有 效 
策略 。 


1.6.2 查看 网 站 所 用 的 技术 


目标 网 站 所 用 的 技术 会 成 为 影响 仆 虫 程序 策略 的 一 个 重要 因素 ,俗话 说 知已 知 


彼 , 百 战 不 列 。 用 户 可 以 使 用 wad 模块 来 检查 网 站 使 用 的 技术 类 型 ,可 以 十 分 简便 地 
使 用 pip 来 安装 这 个 库 : 


| 第 1 章 Python E i £& fe ch (55) 


pip install wad 

安装 完成 后 ,在 终端 中 使 用 wad-u url 这 样 的 命令 就 能 够 查看 网 站 的 分 析 结 果 。 
比如 检查 www. baidu. com 使 用 的 技术 类 型 : 

wad — u 'https://www. baidu. com" 

其 输出 结果 如 下 ,数据 使 用 的 是 JSON 格式 : 

{ 


"https://www. baidu. com/": [ 
{ 


"app": "PHP", 
"type": "programming - languages", 
"yer": C" 


"app": "jQuery", 
"type": "javascript - frameworks", 
"ver": "1.10.2" 


} 


从 上 面 的 结果 不 难 发 现 ,该 网 站 使 用 了 PHP 语言 和 jQuery 技术 (jQuery 是 一 个 
十 分 流行 的 JavaScript 框架 )。 由 于 对 百度 的 分 析 结 果 有 限 , 用 户 可 以 再 试 试 其 他 网 
站 ,这 一 次 直接 编写 一 个 Python 脚本 , 见 例 1-3。 

[B] 1-3] wad detect. py. 


import wad.detection 

det = wad. detection. Detector() 
url = input() 

print (det. detect(url)) 


这 几 行 代码 接受 一 个 url 输入 并 返回 wad 分 析 的 结果 ,例如 输入 “http://www. 
12306. cn/”, 得 到 的 结果 如 下 : 


('http://www.12306.cn/': [('app': ‘Java Servlet', 
'type': 'web — frameworks', 
"ver': '2.5'}, 
{'app': ‘JavaServer Pages’, 
‘type’: 'web- frameworks', 
verts 2.45), 
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('app': ‘Java’, 
'type': 'programming — languages ', 
'ver': None] ]} 


根据 这 样 的 结果 可 以 看 到 ,12306 购 票 网 站 使 用 Java 编写 ,并 使 用 了 Java 
Servlet 等 框架 。 

GER] JSONCavaScript Object Notation) 是 一 种 轻 量 级 数据 交换 格式 ,JSON 
便于 用 户 阅读 和 编写 ,同时 也 易于 计算 机 进行 解析 和 生成 。 另 外 ,JSON 采用 完全 独 
立 于 语言 的 文本 格式 ,因此 成 为 一 种 被 广泛 使 用 的 数据 交换 语言 。JSON 的 诞生 与 
JavaScript 密切 相关 ,不 过 目前 很 多 语言 (当然 也 包括 Python) 都 支持 对 JSON 数据 的 
生成 和 解析 。JSON 数据 的 书写 格式 为 名 称 / 值 。 一 对 名 称 / 值 包括 字段 名 称 ( 双 引号 
中 ) ,后 面 写 一 个 冒号 ,然后 是 值 , 例 如 "firstName": "Allen", JSON 对 象 在 花 括号 
中 书写 ,可 以 包含 多 个 名 称 / 值 对 。JSON 数组 则 在 方 括号 中 书写 ,数组 可 包含 多 个 对 
$. MÈ AAG HY ABR PT AEE AIS) ISON 格式 数据 的 处 理 , 因 此 有 必要 对 
它 作 一 些 了 解 ,有 兴趣 的 读者 可 以 在 JSON 的 官方 文档 (http://www. json. org/json- 
zh. html) 上 阅读 更 详细 的 说 明 。 


1.6.3. 查看 网 站 所 有 者 的 信息 


如 果 用 户 想 要 知道 网 站 所 有 者 的 相关 信息 ,除了 可 以 在 网 站 中 的 “关于 ”或 者 
about 页 面 中 查看 之 外 ,还 可 以 使 用 WHOIS 协议 来 查询 域名 。 所 谓 的 WHOIS 协 
议 , 就 是 一 个 用 来 查询 互联 网 上 域名 的 IP 和 所 有 者 等 信息 的 传输 协议 ,其 稚 形 是 
1982 年 互联 网 工程 任务 组 (Internet Engineering Task Force, IETF) 的 一 个 有 关 
ARPANET 用 户 目录 服务 的 协议 。 

WHOIS 的 使 用 十 分 方便 ,用 户 可 以 通过 pip 安装 python-whois PE ,在 终端 运行 
以 下 命令 : 


pip install python - whois 


安装 完成 后 使 用 “whois domain” 这 样 的 格式 查询 即 可 ,比如 查询 yale. edu CRS 
大 学 官网 ) 的 结果 ,执行 命令 “whois yale. edu", 
输出 的 结果 如 下 (部 分 结果 ) : 


Registrant: 
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Yale University 

25 Science Park 
150 Munson St 

New Haven, CT 06520 
UNITED STATES 


Administrative Contact: 
Franz Hartl 
Yale University 
25 Science Park 
150 Munson St 
New Haven, CT 06520 
UNITED STATES 
(203) 436 - 9885 
webmaster@ yale. edu 


Name Servers: 


SERV1. NET. YALE. EDU 130.132.1.9 
SERV2. NET. YALE. EDU 130.132.1.10 
SERV3. NET. YALE. EDU 130.132.1.11 
SERV4. NET. YALE. EDU 130.132.89.9 
SERV — XND. NET. YALE. EDU 68.171.145.173 


不 难看 出 ,这 里 给 出 了 域名 的 注册 信息 (包括 地 址 )、 网 站 管理 员 信 息 以 及 域名 服 
务 器 等 相关 信息 。 不 过 ,用 户 在 爬 取 某 个 网 站 时 可 能 需要 联系 网 站 管理 者 ,因此 网 站 
上 一 般 会 有 特定 的 页 面 给 出 联系 方式 (email 或 者 电话 ), 这 可 能 是 一 个 更 加 直接 、 方 
便 的 选择 。 


1.6.4 使 用 开发 者 工具 检查 网 页 


如 果 用 户 想 要 编写 一 个 疏 取 网 页 内 容 的 怜 虫 程序 ,在 动手 编写 之 前 最 重要 的 准 
备 工 作 可 能 就 是 检查 目标 网 页 了 。 一 般 先 在 浏览 器 中 输入 一 个 url 地 址 并 打开 这 个 
网 页 ,接着 浏览 器 会 将 HTML 泻 染 出 美观 的 界面 效果 。 如 果 用 户 的 目标 只 是 浏览 或 
者 单 击 网 页 中 的 某 些 内 容 , 正 如 一 个 普通 的 网 站 用 户 那 样 ,那么 做 到 这 里 就 足够 了 ， 
但 遗憾 的 是 ,对 于 扑 虫 编写 者 而 言 , 还 需要 更 好 地 研究 一 下 手头 的 工具 一 一 自己 的 浏 
览 器 ,在 这 里 建议 读者 使 用 Google Chrome 或 Firefox 浏览 器 ,这 不 仅 是 因为 它们 占 
T 73% 的 浏览 器 市 场 ,流行 程度 考 良 置疑 ,更 是 因为 它们 都 为 开发 者 提供 了 强大 的 


CQ 数据 出 自 netmarketshare 的 调查 , W “https://www. netmarketshare. com/browser-market-share. aspx? 
qprid—08-qpcustomd— 0", 
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这 里 以 Chrome 为 例 , 看 一 下 如 何 使 用 开发 者 工具 。 用 户 可 以 单 击 * 更 多 工具 ” 
下 的 “开发 者 工具 ”, 也 可 以 直接 在 网 页 内 容 中 右 击 并 选择 “检查 ”命令 ,效果 如 图 1-23 
所 示 。 


Detug Progressive Web apos Fcwome RRETA 
Understand Secuty issues was 

Ron Snippets of Code From any osar 

Page 


View and change cas Chrome FELRE- EAR T Google Chrome 中 的 Web 开 发 和 调试 工 
Inspect and Manage Storage, 内 ， 可 用 来 对 网 站 进行 千代、 调试 和 分 析 。 


Analyze Runtime Performance. 打开 Chrome 开发 考 工具 * 


Fin Memory Problems + Echon RAPE 更 多 工具 > AREIA 
Extn the Chrome DevTools 


È Dogtood ILI nO ome FRETA Chrome Canary PENE 


+ ER LEA, cuan 
+ MER ceri¢shi fe+ (Windows) iè cndroprtT (Mac) 


图 1-23 Chrome 开发 者 工具 


Chrome 的 开发 者 模式 为 用 户 提供 了 下 面 几 组 工具 。 


Elements: 允许 用 户 从 浏览 器 的 角度 来 观察 网 页 ,用户 可 以 借 此 看 到 Chrome 
泻 染 页 面 所 需要 的 HTML, CSS 和 DOM(Document Object Model) 对 象 。 
Network; 可 以 看 到 页 面向 服务 器 请 求 了 哪些 资源 .资源 的 大 小 以 及 加 载 资 
源 的 相关 信息 ,此 外 还 可 以 查看 HTTP 的 请 求 头 .返回 内 容 等 。 

Sources: 源 代码 面板 主要 用 来 调试 JavaScript. 

Console; 控制 台 可 以 显示 各 种 警告 与 错误 信息 ,在 开发 期 间 , 用 户 可 以 使 用 
控制 台面 板 记录 诊断 信息 ,或 者 使 用 它 作为 Shell 在 页 面 上 与 JavaScript 交互 。 
Performance: 使 用 这 个 模块 可 以 记录 和 查看 网 站 生命 周期 内 发 生 的 各 种 事 
件 , 从 而 提高 页 面 的 运行 时 性 能 。 

Memory: 这 个 面板 可 以 提供 比 Performance 更 多 的 信息 ,例如 跟踪 内 存 泄漏 。 
Application: 检查 加 载 的 所 有 资源 。 

Security: 安全 面板 可 以 用 来 处 理 证 书 问题 等 。 


另外 ,通过 切换 设备 模式 可 以 观察 网 页 在 不 同 设备 上 的 显示 效果 ,如 图 1-24 


图 1-24 
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Tools for Web Developers 


$ Are you a developer in an agency in the UK, 
Indonesia or India? Find out more about our free 2 day 
Progressive Web Apps training . 


Products » Web > ToolsforWebDevelopers > Tool 


BA v 
打开 控制 台 

以 面板 形式 打开 

以 抽 尼 式 导航 栏 形式 打开 
Hore 


By Kayce Basques 
Technical Writer at Google 


A. By Andi Smith 


在 Chrome 开发 者 模式 中 将 设备 切换 为 iPhone 6 后 的 显示 


在 Element 模块 下 ,用 户 可 以 检查 和 编辑 页 面 的 HTML 与 CSS, 选 中 并 双击 也 


元 
素 就 可 以 编辑 元 素 了 ,例如 将 百度 贴吧 (tieba. baidu. com) 首 页 导航 栏 中 的 部 分 文字 


去 掉 , 并 将 部 分 文字 变 为 红色 ,效果 如 图 1-25 所 示 。 


,00 
Bai 人 贴吧 


移民 美国 


百度 首页 fi 注册 


进入 贴吧 全 吧 搜 索 ] 高 级 搜索 


BERE 
s BÜBBEDHB:-* 


马上 登录 贴吧 


amsa Can 


图 1-25 通过 Chrome 开发 者 工具 更 改 贴吧 首页 内 容 


当然 ,用 户 也 可 以 选中 某 个 元 素 后 右 击 查 看 更 多 操作 ,如 图 1-26 所 示 。 
值得 一 提 的 是 上 面 右键 菜单 中 的 Copy XPath 选项 ,由 于 XPath 是 解析 网 页 的 利 
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图 1-26 通过 Chrome 开发 者 工具 选中 元 素 后 的 右键 菜单 
器 ,因此 Chrome 中 的 这 个 功能 对 于 用 户 的 怜 虫 程序 的 编写 就 显得 十 分 实用 方便 了 。 
使 用 Network 工具 可 以 清楚 地 查看 网 页 加 载 网 络 资源 的 过 程 和 相关 信息 ,请 求 
的 每 个 资源 在 Network 表格 中 显示 为 一 行 ,对 于 某 个 特定 的 网 络 请 求 , 可 以 进一步 查 


看 请 求 头 、 响 应 


头 ` 已 经 返回 的 内 容 等 信息 。 对 于 需要 填写 并 发 送 表单 的 网 页 而 言 


(比如 执行 用 户 登录 操作 ) ,在 Network 面板 中 勾 选 Preserve log, 然 后 进行 登录 ,就 可 
以 记录 下 HTTP POST 信息 ,查看 发 送 的 表单 信息 详情 。 如 果 用 户 在 贴吧 首页 开启 
开发 者 工具 后 再 登录 ,就 可 以 看 到 如 图 1-27 所 示 的 信息 。 


民 a 
Filter Regex 
5000 ms 


Name 
st "n 
95p0.baidu convSaAHeD3nKhI2p27j8lqWojdmextx. 
passport. baidu.com/img 
Fes 
passport. baidu.com/v2/api 
gj Ab/static-commor/html/pass. 
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user.nuormi.com/pclogir/main 
[1 erossdomain.do: 
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Hide data URLs 图 XHR JS CSS img Media Font Doc WS Manifest Other 
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VàJump.htmi?err no-O&calback-parentbd  pcbs.. 
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Jlbdu-cEROMHBYVTFCaUSXbHN... 
219 requests | 269 KB transferred | Finish: 12.81 s | DOM... 


15000 ms 20000 ms 25000 ms 


X Headers Preview Response Cookies Timing 
Y General 
UNE t ma :/foassport:| baidu.com/v2/api/? login 


Remote Address: 119.75.222.130:443 
Referrer Policy: no-referrer-when-downgrade 

> Response Headers (22) 

> Request Headers (13) 

Y Query String Parameters view source view URL encoded 
login: 


> Form Data (29) 


图 1-27 使 用 Network 查看 登录 表单 
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其 中 的 Form Data 就 包含 了 向 服务 器 发 送 的 表单 信息 详情 。 

【提示 】 # HTML 中 ,< form > 标签 用 于 为 用 户 输入 创建 一 个 HTML 表单 。 表 
单 能 够 包含 input 元 素 ,例如 文本 字段 、 单 选 / 复 选 框 、 提 交 按 钮 等 ,一 般 用 于 向 服务 器 
传输 数据 ,是 用 户 与 网 站 进行 数据 交互 的 基本 方式 。 

当然 ,Chrome 等 浏览 器 的 开发 者 工具 还 包含 很 多 更 加 复杂 的 功能 ,在 这 里 就 不 
一 一 袭 述 ,等 到 需要 用 的 时 候 再 学 习 即 可 。 


1.7 本 章 小 结 


本 章 介 绍 了 Python 语言 的 基本 知识 ,并 且 通 过 一 个 简洁 的 例子 为 读者 展示 了 网 
络 息 虫 的 基本 概念 ,此 外 还 介绍 了 一 些 用 来 调研 和 分 析 网 站 的 工具 ,以 Chrome 开发 
者 工具 为 例 说 明了 网 页 分 析 的 基本 方法 ,读者 可 以 借 此 形成 对 网 络 爬 虫 的 初步 印象 。 
在 接 下 来 的 一 章 中 将 详细 讨论 网 页 抓 取 和 网 络 数据 采集 的 方法 。 


正如 本 书 之 前 提 到 的 ,网 络 候 虫 程序 的 核心 任务 就 是 获取 网 络 上 (很 多 时 候 是 指 
某 个 网 站 上 ) 的 数据 ,并 对 特定 的 数据 做 一 些 处 理 。 因 此 ,如 何 “ 采 集 ” 到 所 需 的 数据 
往往 成 为 候 虫 成 功 与 否 的 重点 。 使 用 排除 法 显然 不 现实 ,用 户 需要 以 某 种 方式 直接 
“定位 ?到 自己 想 要 的 东西 ,这 个 过 程 有 时 候 也 被 称 为 “选择 ”。 数 据 采集 最 常见 的 任 
务 就 是 从 网 页 中 抽取 数据 ,一 般 所 谓 的 “ 抓 取 ” 就 是 指 这 个 动作 。 

在 第 1 童 中 已 经 初步 讨论 了 分 析 网 站 和 洞悉 网 页 的 基本 方法 , 接 下 来 正式 进入 
“应 丁 解 牛 ”的 阶段 ,使 用 各 种 工具 来 获取 网 页 信息 。 不 过 ,值得 一 提 的 是 ,网 络 上 的 
信息 不 一 定 必须 要 以 网 页 (HTML) 的 形式 来 呈现 ,在 本 章 的 最 后 将 介绍 网 站 API 及 
其 使 用 。 


2.1 从 抓 取 开 始 


在 了 解 了 网 页 结构 的 基础 上 , 接 下 来 介绍 几 种 工具 ,分 别 是 正则 表达 式 ( 及 
Python 的 正则 表达 式 库 一 一 re 模块 )、XPath、BeautifulSoup 模块 以 及 Ixml 模块 。 
在 展开 讨论 之 前 需要 说 明 的 是 ,在 解析 速度 上 正则 表达 式 和 lxml 模块 是 比较 突 


出 的 ,lxml 模块 是 基于 C 语言 的 ,而 BeautifulSoup 模块 使 用 Python 编写 ,因此 
BeautifulSoup 在 性 能 上 上 略 偿 一 筹 也 不 奇怪 。BeautifulSoup 使 用 起 来 更 方便 一 些 , 且 
支持 CSS 选择 器 ,这 也 能 够 弥补 其 性 能 上 的 缺憾 ,另外 最 新 版 的 bs4 已 经 支持 lxml 
作为 解析 器 。 在 使 用 lxml 时 主要 是 根据 XPath 来 解析 ,如 果 用 户 熟 悉 XPath 的 语 
法 ,那么 lxml 和 BeautifulSoup 都 是 很 好 的 选择 。 

不 过 ,由 于 正则 表达 式 本 身 并 非特 地 为 网 页 解析 设计 ,加 上 语法 比较 复杂 ,因此 
一 般 不 会 经 常 使 用 纯粹 的 正则 表达 式 解 析 HTML 内 容 。 在 息 虫 程序 的 编写 中 ,正则 
表达 式 主 要 作为 字符 串 处 理 ( 包 括 识别 URL、 关 键 词 搜索 等 ) 的 工具 ,解析 网 页 内 容 
则 主要 使 用 BeautifulSoup 和 lxml 两 个 模块 ,正则 表达 式 可 以 配合 这 些 工 具 一 起 
使 用 。 

GER) 严格 来 说 ,正则 表达 式 、XPath、BeautifulSoup 和 Ixml 并 不 是 平行 的 4 
个 概念 。 正 则 表达 式 和 XPath 是 “规则 ”或 者 叫 “ 模 式 ”, 而 BeautifulSoup 和 Ixml 是 
两 个 Python 模块 。 在 后 面 读者 会 发 现 ,在 编写 爬虫 程序 时 往往 不 会 只 使 用 一 种 网 页 
元 素 抓 取 方 法 ,因此 这 里 将 这 四 者 暂且 放 在 一 起 介绍 。 


2.2 正则 表达 式 


2.2.1 初 识 正则 表达 式 


正则 表达 式 对 于 程序 的 编写 而 言 是 一 个 复杂 的 话题 , 它 为 了 更 好 地 “匹配 ”或 者 
“寻找 ” 某 一 种 字符 串 而 生 。 正 则 表达 式 常 用 来 描述 一 种 规则 ,而 通过 这 种 规则 ,用 户 
能 够 更 方便 地 查找 邮箱 地 址 或 者 筛选 文本 内 容 。 例 如 “[A-Za-z0-9\. _ 十 ] 十 @[A-Za- 
20-9 ]--N. (com|org|edu|net)” 就 是 一 个 描述 电子 邮箱 地 址 的 正则 表达 式 。 当 然 , 需 
要 注意 的 是 ,在 使 用 正则 表达 式 时 不 同 语言 之 间 可 能 存在 着 一 些 细微 的 不 同 之 处 , 具 
体 应 该 结合 当时 的 编程 上 下 文 来 看 。 

正则 表达 式 的 规则 比较 繁杂 ,读者 可 以 参阅 附录 A 中 的 相关 介绍 。 这 里 直接 通 
过 Python 应 用 正则 表达 式 。 在 Python 中 有 一 个 名 为 “re 的 库 ( 实 际 上 是 Python 标 
准 库 ) , 它 提供 了 一 些 实 用 的 内 容 。 同 时 ,另外 一 个 库 regex 也 是 关于 正则 表达 式 的 ， 
这 里 先 用 标准 库 来 进行 一 些 初步 的 探索 。re 库 中 的 主要 方法 如 下 , 接 下 来 将 分 别 
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介绍 : 


re.compile(string[,flag]) 
re.match(pattern, string[, flags]) 
re.search(pattern, string[, flags]) 
re.split(pattern, string[, maxsplit]) 
re.findall(pattern, string[, flags]) 
re.finditer(pattern, string[, flags]) 
re.sub(pattern, repl, string[, count]) 
re.subn(pattern, repl, string[, count]) 


首先 导入 re 模块 并 使 用 match() 方 法 进行 首次 匹配 : 


import re 
SS = 'I love you, do you?" 


res = re. match(r'((\w) + (\W)) + ', ss) 
print (res. group()) 


使 用 re. match() 方 法 会 默认 从 字符 串 的 起 始 位 置 开始 匹配 一 个 模式 ,这 个 方法 
一 般 用 于 检查 目标 字符 串 是 否 符合 某 一 规则 (又 叫 模式 ,pattern)。 其 返回 的 res 是 
一 个 match 对 象 ,可 以 通过 group() 获 取 匹 配 到 的 内 容 。group() 将 返回 整个 匹配 的 
子 串 ,而 group(n) 返 回 第 n 个 组 对 应 的 字符 串 , 从 1 开始 。 在 这 里 group() 返 回 
“I love you." fil group(1) 返 回 “you,”。 

search() 方 法 和 match() 方 法 类 似 , 区 别 在 于 match() 会 检测 是 不 是 在 字符 串 的 
开头 位 置 匹配 ,而 search() 会 扫描 整个 string 查找 匹配 。search() 也 会 返回 一 个 
match 对 象 , 如 果 匹 配 不 成 功 则 返回 None: 

import re 

ss = 'I love you, do you?" 

res = re. search(r'(\w+ )(,) ', ss) 

# print(res) 

print(res.group(0)) 


print(res.group(1)) 
print(res.group(2)) 


其 输出 如 下 : 


Youv 
You 


$ 
N 
» 
g 
请 
on 
X 
È 


split() 方 法 按照 能 够 匹配 的 子 串 将 字符 串 分 割 ,返回 一 个 分 割 结果 的 列表 : 


ss_tosplit = 'I love you, do you?" 
res = re. split('\W+ ',ss tosplit) 
print(res) 


输出 为 : 
['I', 'love', 'you', 'do', 'you', ''] 


用 户 还 可 以 为 其 指定 最 大 分 割 次 数 : 


ss_tosplit = 'I love you, do you?’ 
res = re. split('\W+ ',ss tosplit,maxsplit- 1) 
print(res) 


这 时 输出 结果 变 为 : 
['I', ‘love you, do you? '] 


sub() 方 法 用 于 字符 串 的 替换 ,替换 string 中 每 一 个 匹配 的 子 串 后 返回 替换 后 的 
FATE 


res = re. sub(r'(\w+ )(,)', ‘her, ', ss) 
print(res) 


输 ME 为 : 
I love her, do you? 


subn() 方 法 与 sub() 方 法 几乎 一 样 ,但 是 它 会 返回 一 个 替换 的 次 数 : 


res = re. subn(r'(\w+ )(,) ', ‘her, ', ss) 
print(res) 


E 出 为 : 
(‘I love her, do you?', 1) 


findall() 方 法 听 起 来 很 像 search() 方 法 ,这 个 方法 将 搜索 整个 字符 串 , 用 列表 形 
式 返 回 全 部 能 匹配 的 子 串 。 在 这 里 可 以 把 它 和 search() 方 法 做 个 对 比 : 
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ss= 'I love you, do you?" 
res1 = re. search(r'(\w+ ) ',ss) 
res2 = re, findall(r'(\w+ )', ss) 


print(resl.group()) 
print(res2) 


输出 为 : 


I 


['I', 'love', 'you', 'do', 'you'] 


可 见 ,search() 只 “找到 ?了 一 个 单词 ,而 findallO “RA” T AFP AY Bot dis]. 

除了 直接 使 用 re. search() 这 种 形式 的 调用 以 外 ,用 户 还 可 以 使 用 另外 一 种 调用 
形式 , 即 通过 pattern. search() 这 样 的 形式 调用 ,这 种 方法 避免 了 将 pattern( 正 则 规 
则 ) 直 接 写 在 函数 参数 列表 中 ,但 是 要 事先 进行 “编译 ”: 


pt = re. compile(r'(\w+ )') 
SS 7 'Another kind of calling' 
res pt. findall(ss) 
print(res) 


输出 为 ， 


['Another', 'kind', 'of', 'calling'] 


2.2.2. 正则 表达 式 的 简单 使 用 


正则 表达 式 的 具体 应 用 当然 不 仅仅 是 在 一 个 句子 中 找 单词 这 么 简单 ,用 户 还 可 
以 用 它 寻 找 ping 信息 中 的 时 间 结 果 : 


ping ss = 'Reply from 220.181.57.216: bytes = 32 time = 3ms TTL = 47" 
res = re. search(r'(time = )(\d+ Vw * ) + (.) + TTL', ping ss) 
print(res. group(2)) 


输出 为 : 


3ms 


在 编写 息 虫 程序 时 ,用 户 也 可 以 用 正则 表达 式 来 解析 网 页 。 比 如 对 于 百度 ,用 户 


想 要 获得 其 title 信息 ,可 以 先 观 察 一 下 网 页 的 源 代码 ,下 面 是 百度 首页 的 部 分 源 代码 : 


< meta http- equiv = Content - Type content = "text/html; charset = utf - 8">< meta http — equiv = 
X- UA- Compatible content = "IE = edge, chrome = 1">< meta content = always name = referrer > 
< link rel = "shortcut icon" href = /favicon. ico type = image/x- icon» < link rel = icon sizes = any 
mask href = //www. baidu. com/img/baidu_85beaf5496£291521eb75ba38eachd87. svg>< title >H HF 
一 下 ,你 就 知道 </title>< style 


显然 ,只 要 能 匹配 到 一 个 左边 是 “< title 2" AW de“ «/ title >”( 这 些 都 是 所 谓 的 
HTML 标签 ) 的 字符 串 ,用 户 就 能 够 “挖掘 ?到 百度 首页 的 标题 文字 : 

import re, requests 

r = requests, get( ‘https: //www. baidu. com') . content. decode( 'utf - 8') 

print(r) 


pt = re. compile('(\<title\>)([\S\s] + )(\<\/title\>) ') 
print (pt. search(r) . group(2) ) 


输出 为 : 
百度 一 下 , 你 就 知道 


如 果 用 户 厌 烦 了 那么 多 的 转 义 符 “\”, 在 Python 3 中 还 可 以 通过 使 用 字符 串 前 
的 r+ 来 提高 效率 : 


pt = re.compile(r'(<title>)([\S\s] + )(</title>)') 
Print(pt. search(r). group(2)) 


这 同样 能 够 得 到 正确 的 结果 。 

当然 ,用 户 一 般 不 会 这 样 单 赁 正则 表达 式 来 解析 网 页 ,而 是 总 会 将 它 与 其 他 工具 配 
合 使 用 ,比如 BeautifulSoup 中 的 find() 方 法 就 可 以 配合 正则 表达 式 使 用 。 假 设 目标 网 
页 是 维基 百科 中 一 条 关于 纽约 市 的 页 面 (https://en. wikipedia. org/ wiki/ New York | 
City) ,用 户 可 以 看 到 在 这 个 页 面 上 有 一 些 自己 感 兴趣 的 图 片 , 它 们 的 网 页 源 代码 如 下 : 


<img alt = "Clockwise, from top: Midtown Manhattan, Times Square, the Unisphere in Queens, 
the Brooklyn Bridge, Lower Manhattan with One World Trade Center, Central Park, the 
headquarters of the United Nations, and the Statue of Liberty" 

src = "//upload. wikimedia. org/wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 - Jleon. 
jpg/305px- NYC Montage 2014 4 -— Jleon. jpg" width = "305" height = "401" 

srcset = "//upload. wikimedia. org/wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 - _ 
Jleon. jpg/458px — NYC Montage 2014 4 - _Jleon. jpg 1. 5x, //upload. wikimedia. org/ 
wikipedia/commons/thumb/9/9d/NYC Montage 2014 4 — _Jleon. jpg/610px - NYC Montage 2014 - 
4 — Jleon.jpg 2x"data- file - width = "1398" data- file- height = "1839"> 
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如 果 用 户 想 要 获得 这 些 图 片 ( 的 链接 ) ,首先 想到 的 方法 就 是 使 用 findAll("img") 去 
抓 取 ,但 是 网 页 中 的 “img” 却 不 仅仅 包括 用 户 想 要 的 这 些 关 于 纽约 市 历史 和 情况 的 昭 
片 , 网 站 中 通用 的 一 些 图 片 (logo、 标 签 等 ) 也 会 被 抓 到 。 设 想 一 下 ,用 户 编写 了 一 个 
通过 URL 下 载 图 片 的 函数 ,执行 完 之 后 却 发 现 本 地 文件 夹 中 多 了 一 堆 自 己 不 想 要 的 
与 纽约 市 没有 任何 关系 的 图 片 ,对 于 这 种 情况 必须 避免 ,为 了 有 针对 性 地 抓 取 , 用 户 
可 以 配合 使 用 正则 表达 式 : 

import re,requests 

from bs4 import BeautifulSoup 

r = requests. get( 'https: //en. wikipedia. org/wiki/New York City') 

print(r) 

bs = BeautifulSoup(r. content) 

ings = bs. findAll('img', { 'srcset':re. compile(r'([\s\S] + ) (upload. wikimedia. org/wikipedia/ 

commons/thumb/ )([\d\w]) + /([\s\S]) + V. jpg')}) 


for img in imgs: 
print(re. search(r'([\s\S] + )(1.5x)([\s\S] + )', "http: ' + img[ 'srcset']). group(1)) 


这 里 使 用 一 个 看 起 来 非常 复杂 的 正则 表达 式 去 寻找 想 要 的 图 片 ; 


([\s\S] + ) (upload. wikimedia. org/wikipedia/commons/thumb/) ( [\d\w]) + /([\s\S]) + V. jpg 


这 个 规则 将 帮助 用 户 过 滤 掉 一 些 网 页 中 的 装饰 性 图 片 和 与 词 条 内 容 无 关 的 图 
片 , 比 如 “https://upload. wikimedia. org/wikipedia/en/thumb/4/4a/Commons-logo. 
svg/22px-Commons-logo. svg. png”, 这 是 一 个 网 站 中 使 用 的 logo 图 片 的 地 址 ,最 终 
的 图 片 地 址 输出 见 图 2-1. 


http;ZA /commons/ thusb/9, T Teon. jpg 

http: //upload.wikinedia-otg/eikipedia/comens/thnb/e/e2/steichtOplitunansterdan,iee/as0en-GezichiOelieimdesterdans ee 
tta://upload.wikinedia,org/wikipedia/commons/thumb/b/b3/BattleofLongis Land. jpg/336px-/ HattleofLongisland- pg 

http: 00p10ad。 wikinedia. org/wikipedia/conmons/thunb/s/62/Mulberry Street NYC c1900- LOC 28046371. edit. Ing/338px-Mulberry Street. NYC C190 
hieto://upload.wikinedia. org/uikinedia/conmons/<huab/</e2/Dag Hasmarskjald. outside. the- UN building. Jag/2sspx-0ag_Hanmarshjold putside. th 
htta://upload.wikinedia,ore/wikipedia/commons/thumb/4/4f/Aster newyorkcity Lrg. ing/25spx-Aster_nenyorkcity lrg.Jpg 


图 2-1 抓 取 结 果 示意 

re. Populi udin 5x) C[NSNS ]H-) ' "http: '+-img['sreset']). group) W 
作为 一 次 “字符 串 清洗 ”将 图 片 地 址 部 分 清理 出 来 ,去 掉 无 关 的 内 容 。 在 清洗 前 ,用 户 
得 到 的 srcset 属性 是 这 样 的 : 


3» 
N 
Lu 
E 
B 
fess 
x 
id 


srcset = "//upload. wikimedia. org/wikipedia/commons/thumb/8/85/New York Gay Pride 2011. 
jpg/330px- New York Gay Pride 2011.jpg 1.5x, //upload. wikimedia. org/wikipedia/commons/ 
thumb/8/85/New York Gay Pride 2011.jpg/440px- New York Gay Pride 2011. jpg 2x" 


在 清洗 之 后 结果 清楚 了 很 多 : 


http://upload. wikimedia. org/wikipedia/commons/thumb/8/85/New York Gay Pride 2011. jpg/ 
330px-New York Gay Pride 2011. jpg 


可 见 ,search() 与 group() 的 使 用 大 大 提高 了 用 户 处 理 字符 串 的 效率 。 

[ml] 在 使 用 BeautifulSoup 时 ,获取 标签 的 属性 是 十 分 重要 的 一 个 操作 。 比 
如 获取 <a> 标 签 的 href 属性 (这 就 是 网 页 中 文本 对 应 的 超 链 接 ) 或 < img > 标签 的 src 
属性 (代表 着 图 片 的 地 址 ) 。 对 于 一 个 标签 对 象 (在 BeautifulSoup 中 的 名 字 是 “< class 
'bs4. element. Tag'>”) ,用 户 可 以 这 样 获得 它 所 有 的 属性 , 即 tag. attrs, 这 是 一 个 字典 
(dict) 对象 ,因此 用 户 可 以 像 上 面 的 演示 代码 那样 访问 它 , 即 img. attrs[ 'srcset']。 

最 后 要 说 明 的 是 ,在 比较 新 的 BeautifulSoup 版 本 上 运行 上 面 的 代码 可 能 会 出 现 
如 下 系统 提示 : 


UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser 
for this system ("html5lib"). 


这 实际 上 是 说 用 户 没 有 明确 地 为 BeautifulSoup 指定 一 个 HTMIAXML 解析 器 。 
如 果 指 定 , 例 如 BeautifulSoup( .... "html. parser" ) , 便 不 会 出 现 这 个 警告 。 当 然 , 除 
了 html. parser 以 外 ,还 可 以 指定 为 lxml、html5lib 等 。 

【提示 】 在 Python 中 处 理 正则 表达 式 的 模块 不 止 re 一 个 , 非 内 置 模块 的 regex 
是 更 加 强大 的 正则 工具 (可 以 使 用 pip 安装 来 体验 )。 在 本 书 附录 A 中 提供 了 关于 正 
则 表达 式 和 regex 的 更 多 介绍 ,读者 可 以 参考 学 习 。 


2.3 BeautifulSoup 


BeautifulSoup 是 一 个 很 流行 的 Python 库 ,名 字 来 源 于 《爱丽 丝 梦 游 仙 境 》 中 的 一 
首 诗 , 作 为 网 页 解析 (准确 地 说 是 XML 和 HTML 解析 ) 的 利器 ,BeautifulSoup 提供 
了 定位 内 容 的 人 性 化 接口 ,如 果 说 使 用 正则 表达 式 来 解析 网 页 无 异 于 自 找 麻烦 ,那么 
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BeautifulSoup 至 少 能 够 让 人 感到 心情 舒畅 “简便 ? 正 是 它 的 设计 理念 。 
2.3.1 BeautifulSoup 的 安装 与 特点 


由 于 BeautifulSoup 并 不 是 Python 内 置 的 ,因此 用 户 仍 需要 使 用 pip 来 安装 ,在 
这 里 安装 最 新 的 版 本 一 一 BeautifulSoup 4, 也 叫 bs4 


| 
另外 ,用 户 也 可 以 如 下 安装 : 

pip install bs4 

Linux 用 户 还 可 以 使 用 apt-get 工具 进行 安装 : 
apt-get install Python - bs4 


注意 ,如 果 在 计算 机 上 Python 2 和 Python 3 两 种 版 本 同时 存在 ,那么 可 以 使 用 
pip2 或 者 pip3 命令 来 指明 是 为 哪个 版 本 的 Python 安装 ,执行 这 两 种 命令 是 有 区 别 
的 ,如 图 2-2 所 示 。 


araga’ THU et aie UTS pip2 install numpy 
Requirement already satisfied: numpy in /Library/Python/2.7/site-packages 
sod os esr P araara? pip3 install numpy 
Requirement already satisfied: numpy in /Library/Frameworks/Python.framework/Ver 


sions/3.5/lib/python3.5/site-packages 


图 2-2 pip2 与 pip3 命令 的 区 别 

如 果 用 户 在 安装 中 碰 到 了 什么 问题 ,可 以 访问 以 下 网 址 : 

https://www. crummy. com/software/BeautifulSoup/bs4/doc/ 

这 里 演示 一 下 如 何 使 用 PyCharm IDE 更 轻松 地 安装 这 个 包 ( 其 他 库 的 安装 类 似 ): 

首先 打开 PyCharm 设置 中 的 Project Interpreter 选项 卡 .如 图 2-3 所 示 。 

选中 想 要 为 之 安装 的 Interpreter( 选 择 一 个 Python 版 本 ,也 可 以 是 用 户 之 前 设 
置 的 虚拟 环境 ) ,然后 单 击 " 十 ”, 打 开 搜索 页 面 , 如 图 2-4 所 示 。 

搜索 并 安装 即 可 ,如 果 安 装 成 功 ,会 弹出 如 图 2-5 所 示 的 提示 。 

BeautifulSoup 中 的 主要 工具 就 是 BeautifulSoup 对 象 ,这 个 对 象 的 意义 是 指 一 个 
HTML 文档 的 全 部 内 容 。 首 先 来 看 BeautifulSoup 对 象 能 干什么 : 


ece Preferences 
a Project: spidermax > Project interpreter = For current project 
* Appearance & Behavior Project Interpreter: 3.5.2 (/Library/Frameworks/Python.framework/Versions/3.5/bin/python3.5) 
Keymap 
> Editor Package Version Latest 
Plugins APScheduler 
+ Version Control moet 
* Project: spidermax | | Django 
e: 
= Keras 
Project Structure. Bin 
上 Build, Execution, Deployment ^ MarkupSafe 
+ Languages & Frameworks Pillow 
PyBrain 
Eee PyDispatcher 
PyMySQL 
PyYAML 
Pygments 
Scrapy 
Theano 中 0.10.0beta4 
Twisted. * 17.9.01 
Werkzeug 0122 
algorithms 
amap 
appdirs 
appnope 
arrow 
asnicrypto 
十 二、 
2 Cancel | Apply 
图 2-3 Project Interpreter 设置 页 面 
[XX Available Packages 
[Q- beautiful oj 
BeautifulCharts Description 
BeautifulDebug 
BeautifulHTML 
BeautifulHue 
BeautifulRequests 
BeautifulSoup 
beautiful-ansi 
beautiful-readme 
beautiful-time 
beautiful. print. 
beautifulmessage 
beautifulscraper 
beautifulsoup4 
beautifulsoup4-slurp 
beautifulsoupselect 
beautifultable 
django-beautifulpredicates 
django-beautifulsoup-test 
ipython-beautifulsoup 
scrapy-beautifulsoup 
Specify version 2 
o Options 
Install to user's site packages directory (/Users/zhangyang/.local) 
Install Package | _ Manage Repositories 


图 2-4 模块 搜索 页 面 
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© Packages installed successfully =X 
Installed packages: "wr 
me 


图 2-5 安装 成 功 的 提示 


import bs4, requests 
from bs4 import BeautifulSoup 


ht = requests. get( ‘https: / /www. douban. com') 
bsl = BeautifulSoup(ht. content) 
print(bsl.prettify()) 
print('title') 
print(bsl.title) 
print('title.name') 
print(bs1, title. name) 
print('title. parent. name’) 
print(bs1. title. parent. name) 
print( ‘find all "a" ') 
print(bsl.find all('a')) 
print('text of all "h2" ') 
for one in bs1.find all('h2'): 
print(one. text) 


这 段 示 例 程 序 的 输出 是 这 样 的 : 


<!DOCTYPE HTML > 
<html class = ""lang- "zh- cmn - Hans" 
<head> 


10 H 28 H JAJA 19:30 - 21:30 
</div> 


</html> 

title 

<title> </title> 
title. name 

title 

title. parent. name 
head 

find all "a" 

[< a class = "1nk- book" href = "https: //book. douban. com" target = "_blank"> 豆 辩 读 书 </a>, <a 
] 

text of all "h2" 


热门 话题 
wet 
可 以 看 出 ,使 用 BeautifulSoup 定位 和 获取 内 容 是 非常 方便 的 ,一 切 看 上 去 都 很 
和 谐 ,但 是 用 户 可 能 会 遇 到 这 样 一 个 提示 : 


UserWarning: No parser was explicitly specified 


这 意味 着 用 户 没 有 指定 BeautifulSoup 的 解析 器 ,解析 器 的 指定 需要 把 原来 的 代 
码 变 为 如 下 : 


bsl = BeautifulSoup(ht. content, 'parser') 


BeautifulSoup 本 身 支持 Python 标准 库 中 的 HTML 解析 器 ,另外 还 支持 一 些 第 
三 方 的 解析 器 ,其 中 最 有 用 的 就 是 lxml。 根 据 操作 系统 不 同 , 安 装 lxml 的 方法 如 下 : 
$ apt- get install Python - lxml 


$ easy install lxml 
$ pip install lxml 


Python 标准 库 html. parser 是 Python 内 置 的 解析 器 ,性 能 过 关 。1xml 的 性 能 和 
容错 能 力 都 是 最 好 的 ,缺点 是 用 户 在 安装 时 可 能 会 碰 到 一 些 麻烦 (其 中 一 个 原因 是 
lxml 需要 C 语言 库 的 支持 ) 。lxml 既 可 以 解析 HTML 也 可 以 解析 XML。 上 面 提 到 
的 3 种 解析 器 分 别 对 应 下 面 的 指定 方法 : 

bsl = BeautifulSoup(ht. content, 'html. parser') 


bsl = BeautifulSoup(ht. content, '1xml') 
bsl = BeautifulSoup(ht. content, 'xml') 


除 此 之 外 ,用 户 还 可 以 使 用 html5lib, 这 个 解析 器 支持 HTML5 标准 ,不 过 目前 
不 是 很 常用 。 目 前 ,人 们 主要 使 用 的 是 lxml 解析 器 。 


2.3.2 BeautifulSoup 的 基本 使 用 


使 用 find() 方 法 获取 到 的 结果 都 是 tag 对 象 ,这 也 是 BeautifulSoup 库 中 的 主要 
对 象 之 一 ,tag 对象 在 逻辑 上 与 XML 或 HTML 文档 中 的 tag 相同 ,可 以 使 用 
tag. name 和 tag. attrs 来 访问 tag 的 名 字 和 属性 ,获取 属性 的 操作 方法 类 似 字 典 , 即 


B 
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tag [ 'href']. 
在 定位 内 容 时 ,最 常用 的 就 是 find O M find. all Or i& find. all OZr 3 f ze Xt 
如 下 : 


find all(name, attrs, recursive, text, ** kwargs) 


该 方法 搜索 当前 这 个 tag( 这 时 BeautifulSoup 对 象 可 以 被 视 为 一 个 tag, 它 是 所 
有 tag 的 根 ) 的 所 有 tag 子 结 点 ,并 判断 是 否 符合 搜索 条 件 。 其 中 ,name 参数 可 以 查 
找 所 有 名 字 为 name 的 tag, 例 如 : 


bs. find all('tagname') 


keyword 参数 在 搜索 时 支持 把 该 参数 当 作 指 定名 字 tag 的 属性 来 搜索 ,就 像 
这 样 : 


bs. find(href = 'https://book. douban. com'). text 


其 结果 应 该 是 “豆瓣 读书 ”。 当 然 ,同时 使 用 多 个 属性 来 搜索 也 是 可 以 的 ,用 户 可 以 通 
过 find_all() 方 法 的 attrs 参数 定义 一 个 字典 参数 来 搜索 多 个 属性 : 


bs. find all(attrs = {"href" : re.compile( time'),"class":"title"]) 


搜索 结果 如 下 : 


[<a class = "title" href = "https://m. douban. com/time/column/72?dt time source = douban — 
web_anonymous"> 觉 知 即 新 生 一 一 终止 童年 创伤 的 心理 修复 课 </a>， 

«a class = "title" href = "https://m. douban. com/time/column/41?dt_time_source = douban — 
web_anonymous"> 歌 词 时 光 姚 谦 写 词 课 </a>, 

<a class = "title" href = "https://m. douban. com/time/column/37?dt time source = douban — 
web anonymous"» 7f Jt Fi AR a. 亚 文化 电影 50 讲 </a>, 

«a class = "title" href = "https://m. douban. com/time/column/53?dt time source = douban — 
web anonymous"^— Bi 2& f) ak FF 日 本 茶道 的 形 与 心 </a>， 

«a class = "title" href = "https://m. douban. com/time/column/25?dt time source = douban — 
web_anonymous"> 白 先 勇 细 说 红楼 梦 一 一 从 小 说 角度 重 解 " 红 楼 "</a>， 

«a class = "title" href = "https://m. douban. com/time/column/61?dt_time_source = douban — 
web_anonymous"> 拍 张 好 照片 一 一 10 分 钟 搞定 旅行 摄影 </a >, 

<a class = "title" href = "https://m. douban. com/time/column/62?dt time source = douban — 
web_anonymous"> 丹 青 贵 公子 T (eS EU Eia, 

<a class = "title" href = "https://m. douban. com/time/column/16?dt time source = douban — 
web_anonymous"> 醒 来 一 一 北 岛 和 朋友 们 的 诗歌 课 </a>, 


a 
N 
di 
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<a class = "title" href = "https://m. douban. com/time/column/39?dt time source = douban — 
web_anonymous"> 古 今 一 一 杨 照 史记 百 讲 </a>， 

<a class = "title" href = "https://m. douban. com/time/column/59?dt time source = douban — 
web_anonymous"> 笔 落 惊 风雨 一 一 你 不 可 不 知 的 中 国 三 大 名 画 </a>] 


在 这 行 代码 里 出 现 了 re. compileO ,也 就 是 说 用 户 使 用 了 正则 表达 式 , 如 果 传 入 
正则 表达 式 作 为 参数 ,BeautifulSoup 会 通过 正则 表达 式 的 match() 来 匹配 内 容 。 

BeautifulSoup 还 支持 根据 CSS 来 搜索 ,不 过 这 时 要 使 用 *class_==” 这 样 的 形式 ， 
因为 class 在 Python 中 是 一 个 保留 关键 字 。 


bs1. find(class_= 'video- title') 


recursive 参数 默认 为 True, BeautifulSoup 会 检索 当前 tag 的 所 有 子孙 结 点 ,如 
果 用 户 只 想 搜索 tag 的 直接 子 结 点 ,可 以 设置 recursive= False, 
通过 text 参数 可 以 搜索 文档 中 的 字符 串 内 容 : 


bs1. find(text = re. compile( '$8 W HF ') ). parent[ 'href'] 


其 输出 结果 为 “https://movie. douban. com/subject/10512661/" , 3x Fe ry HE (48. 
RAF 2049) B x eri EG EH. iX HD find 的 结果 是 一 个 可 以 遍历 的 字符 串 
(NavigableString ,就 是 一 个 tag 中 的 字符 串 ) ,用 户 所 做 的 是 使 用 parent 访问 其 所 在 
的 tag 然后 获取 href 属性 。 正 如 用 户 所 见 ,text 参数 也 支持 正则 表达 式 搜索 。 

find_all() 会 返回 全 部 的 搜索 结果 。 如 果 文 档 树 结构 很 大 ,用 户 可 能 并 不 需要 全 
部 结果 , limit 参数 可 以 限制 返回 结果 的 数量 , 当 搜索 数量 达到 limit 时 就 会 停止 搜 
索 。find() 方 法 实际 上 就 是 limit—1 时 的 find_all() 方 法 。 

由 于 find_all() 方 法 很 常用 ,因此 在 BeautifulSoup 中 BeautifulSoup 对 象 和 tag 
对 象 可 以 被 当 作 一 个 find_all() 方 法 来 使 用 ,也 就 是 说 下 面 两 行 代码 是 等 效 的 ; 


bs.find all("a") 
bs("a") 


下 面 两 行 依然 等 价 : 


soup. title. find_all(text = "abc") 
soup. title(text = "abc") 
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最 后 要 指出 的 是 ,除了 tag. NavigableString, BeautifulSoup 对 象 以 外 ,还 有 一 些 
特殊 对 象 可 以 供用 户 使 用 ,例如 Comment 对 象 是 一 个 特殊 类 型 的 NavigableString 
对 象 : 


bsl = BeautifulSoup( '< b»«! -- This is comment —— ></b>') 
print(type(bs1. find( 'b'). string) ) 


上 面 代码 的 输出 如 下 : 
<class 'bs4. element. Connent > 


这 意味 着 BeautifulSoup 成 功 识别 到 了 注释 。 

在 BeautifulSoup 中 对 内 容 进行 导航 是 一 个 很 重要 的 方面 ,可 以 理解 为 从 某 个 元 
素 找 到 另外 一 个 和 它 处 于 某 种 相对 位 置 的 元 素 。 首 先是 子 结 点 ,一 个 tag 可 能 包含 
多 个 字符 串 或 其 他 的 tag, 这 些 都 是 这 个 tag 的 子 结 点 。 通 过 tag 的 contents 属性 可 
以 将 tag 的 子 结 点 以 列表 的 方式 输出 : 


bs1. find( 'div'). contents 


contents 和 children 属性 仅 包含 tag 的 直接 子 结 点 ,但 元 素 可 能 会 有 间接 子 结 点 
( 即 子 结 点 的 子 结 点 ), 有 时 候 所 有 直接 和 间接 子 结 点 合 称 为 子孙 结 点 。descendants 
属性 表示 tag 的 所 有 子孙 结 点 ,用 户 可 以 循环 子孙 结 点 : 


for child in tag. descendants: 
print(child) 


如 果 tag 只 有 一 个 NavigableString (可 导航 字符 串 ) 类 型 的 子 结 点 ,那么 这 个 tag 
可 以 使 用 . string 得 到 子 结 点 ,如 果 有 多 个 ,可 以 使 用 . strings。 

除了 子 结 点 以 外 ,相对 地 ,每 个 tag 都 有 父 结 点 ,也 就 是 说 它 是 一 个 tag 的 下 一 
级 。 用 户 可 以 通过 . parent 获取 某 个 元 素 的 父 结 点 ,对 于 间接 父 结 点 ( 父 结 点 的 父 结 
点 ), 可 以 通过 元 素 的 . parents 递归 得 到 。 

除了 上 下 级 关系 以 外 , 结 点 之 间 还 存在 平 级 关系 , 即 它们 是 同一 个 元 素 的 子 结 
点 ,这 称 之 为 兄弟 结 点 。 兄 弟 结 点 可 以 通过 . next siblings M. previous siblings 
获得 : 
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ht = requests. get( ‘https: / /www. douban. com’) 

bsl = BeautifulSoup(ht. content) 

res = bs1. find(text = re. compile( ' 网 络 流行 语 ')) 

for one in res. parent. parent.next siblings: 
print(one) 

for one in res. parent. parent.previous siblings: 
print(one) 


输出 结果 如 下 (注意 ,根据 豆瓣 网 首页 内 容 变 化 , 随 日 期 和 时 间 会 有 不 同 ): 

< li class = "rec topics"> 

j ct class = "rec_topics_subtitle">KMA#, —J FX - 11140 人 参与 </span> 

E = class = "rec_topics_subtitle"> 准 备 工作 可 以 做 起 来 了 - 4497 人 参与 </span> 

enis 

除 此 之 外 , BeautifulSoup 还 支持 结 点 前 进 和 后 退 等 导航 (例如 使 用 . next 
element 和 . previous_element) ,对 于 文档 搜索 ,除了 支持 find() 和 find_all() 还 支持 
find_parents()( 在 所 有 父 结 点 中 搜索 ) 和 find_next_siblings() (在 所 有 后 面 的 兄弟 结 
点 中 搜索 ) 等 ,由 于 我 们 平时 使 用 得 不 多 ,这 里 就 不 袭 述 了 ,有 兴趣 的 读者 可 以 在 
Google 中 搜索 相关 用 法 。 


2.4 XPath 5 Ixml 


2.4.1 XPath 


XPath 也 就 是 XML Path Language $J XML 路 径 语言 ) , 它 是 一 种 被 设计 用 来 
在 XML 文档 中 搜寻 信息 的 语言 。 在 这 里 需要 先 介绍 一 下 XML 和 HTML 的 关系 ， 
所 谓 的 HTML (HyperText Markup Language) ,也 就 是 “ 超 文本 标记 语言 ", 它 是 
WWW 的 描述 语言 ,其 设计 目标 是 “创建 网 页 和 其 他 可 在 网 页 浏览 器 中 访问 的 信息 ”; 
而 XML # eXtensible Markup Language( 意 为 可 扩展 标记 语言 ), 其 前 身 是 SGML 
(标准 通用 标记 语言 ) 。 简 单 地 说 ,HTML 是 用 来 显示 数据 的 语言 ,XML 是 用 来 描述 
数据 传输 数据 的 语言 (对 应 XML 文件 ,从 这 个 意义 上 来 说 XML 十 分 类 似 于 
JSON)。 也 有 人 说 ,XML 是 对 HTML 的 补充 。 因 此 ,XPath 可 用 来 在 XML 文件 中 
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对 元 素 和 属性 进行 遍历 ,实现 搜索 和 查询 的 目的 ,也 正 是 因为 XML 与 HTML 的 紧 
密 联 系 , 用 户 可 以 使 用 XPath 对 HTML 文件 进行 查询 。 

XPath 的 语法 规则 并 不 复杂 ,用 户 需要 先 了 解 XML 中 的 一 些 重要 概念 ,包括 元 素 、 
属性 文本 、 命 名 空间 .处理 指 令 .注释 以 及 文档 ,这 些 都 是 XML 中 的 “ 结 点 ”,XML 文档 
本 身 就 是 被 作为 结 点 树 来 对 待 的 。 每 个 结 点 都 有 一 个 parent( 父 / 母 结 点 ), 例 如: 


<movie> 

< name > Transformers </name > 

< director Michael Bay </director > 
</movie> 


在 上 面 的 例子 里 ,movie 是 name 和 director 的 parent 结 点 。 在 下 面 的 例子 中 ， 
name, director 是 movie 的 子 结 点 ,name 和 director 互 为 兄弟 结 点 (sibling)。 


< cinema» 
«movie» 
< name > Transformers </name > 
< director Michael Bay </director > 
</movie> 
<movie> 
< nane > Kung Fu Hustle </name > 
< director > Stephen Chow </director > 
</movie> 
</cinema > 


如 果 XML 是 上 面 这 个 样子 ,对 于 name 而 言 ,cinema 和 movie 就 是 先祖 结 点 
(ancestor) ,同时 ,name 和 movie 是 cinema 的 后 辈 结 点 (descendant) 。 
XPath 表达 式 的 基本 规则 如 表 2-1 所 示 。 


表 2-1 XPath 表达 式 的 基本 规则 


表 达 式 对 应 查询 
nodel 选取 nodel 下 的 所 有 结 点 
/nodel 斜 杠 代表 到 某 元 素 的 绝对 路 径 , 此 处 为 选择 根 上 的 nodel 
//nodel 选取 所 有 nodel 元 素 , 不 考虑 XML 中 的 位 置 
nodel /node2 选取 nodel 子 结 点 中 的 所 有 node2 
nodel//node2 选取 nodel 的 后 辈 结 点 中 的 所 有 node2 

选取 当前 结 点 

选取 当前 的 父 结 点 
//@href 选取 XML 中 的 所 有 href 属性 
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另外 ,在 XPath 中 还 有 “谓语 "和 通配符 ,如 表 2-2 所 示 。 


表 2-2 XPath 中 谓语 和 通配符 的 使 用 


谓语 和 通配符 对 应 查询 
/ cinema/movie[ 1] 选取 cinema 的 子 元 素 中 的 第 一 个 movie 元 素 
/ cinema/movie[ lastO ] 同上 ,但 选取 最 后 一 个 
/ cinema/ movie[ positionO « 5] 选取 cinema 元 素 的 子 元 素 中 的 前 4 个 book TH 
//head[ @href] 选取 所 有 拥有 href 属性 的 head 元 素 
//head[ @href= 'www. baidu. com'] 选取 所 有 href 属性 为 “www. baidu. com” 的 head 元 素 
//* 选取 所 有 元 素 
//head[ à * ] 选取 所 有 有 属性 的 head 263€ 
/ cinema/ * 选取 cinema 结 点 的 所 有 子 元 素 


掌握 了 这 些 基 本 内 容 , 用 户 就 可 以 开始 试 着 使 用 XPath 了 ,不 过 在 实际 编程 中 用 
户 一 般 不 必 自 己 编写 XPath ,使 用 Chrome 等 浏览 器 自 带 的 开发 者 工具 就 能 获得 某 个 
网 页 元 素 的 XPath 路 径 ,用 户 通过 分 析 感 兴趣 元 素 的 XPath 就 能 编写 出 对 应 的 抓 取 
语句 。 


2.4.2 Ixml 与 XPath 的 使 用 


在 Python 中 用 于 XML 处 理 的 工具 有 很 多 ,例如 Python 2 版 本 中 的 
ElementTree API 等 ,不 过 目前 一 般 使 用 1xml 库 来 处 理 XPath ,1xml 的 构建 是 基于 两 
^r C 语言 库 的 , 即 libxml2 和 libxslt, 因 此 在 性 能 方面 lxml 的 表现 足以 让 人 满意 。 另 
外 ,lxml 支持 XPath 1. 0,xslt 1.0、 定 制 元 素 类 ,以 及 Python 风格 的 数据 绑 定 接口 , 因 
此 受到 很 多 人 的 欢迎 。 

当然 ,如 果 用 户 的 计算 机 上 没有 安装 lxml, 首 先 要 用 pip install Ixml 命令 进行 安 
装 ,在 安装 时 可 能 会 出 现 一 些 问题 (这 是 由 于 lxml 本 身 的 特性 造成 的 )。 另 外 ,1xml 
还 可 以 使 用 easy install 等 方式 安装 ,读者 可 以 参照 lxml 官方 的 说 明 , 网址 为 
“http://lxml. de/installation. html", 

最 基本 的 lxml 解析 方式 如 下 : 


from lxml import etree 
doc = etree. parse( ‘example. xml') 


其 中 的 parse() 方 法 会 读 取 整个 XML 文档 并 在 内 存 中 构建 一 个 树 结构 ,如 果 换 一 种 
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导入 方式 : 
from lxml import html 


则 会 导入 HTML 树 结 构 ,一 般 使 用 fromstring() 方 法 来 构建 : 


text = requests. get( 'http://example. com’). text 
html. fromstring(text) 


这 时 用 户 将 会 拥有 一 个 xml. html. HtmlElement 对 象 ,然后 就 可 以 直接 使 用 xpath() 
寻找 其 中 的 元 素 了 : 


h1.xpath('your xpath expression') 


假设 有 一 个 HTML 文档 如 图 2-6 Bros 。 


"mediawiki ltr sitedir-ltr mw-hide-empty-elt ns-0 ns-subject page-Apple rootpage- 
ctor action-view"> 


><div id-"siteNotice" class-"mw-body-content"»..«/div» 
mw-indicators mw-body-content"» 
mw-indicator-good-star" class-"mw-indicator"».«/div» 
><div id-"m«-indicator-pp-default" class-"mw-indicator"».«/div» 
</div> 
Y<hl id-"firstHeading" class-"firstHeading" lang-"en"» == $0 
i:before 
"Apple" 
</hl> 
w«div id-"bodyContent" class-"mw-body-content"» 
teSub" class-"noprint"»From Wikipedia, the free encyclopedia</div> 
ntentSub"></div> 
"jump-to-nav" class="mw-junp">-</div> 
<div id-"m«-content-text" lang-"en" dir-"ltr" class-"mw-content-ltr"» 
w«div class-"mw-parser-output"» 


><div role-"note" class-"hatnote navigation-not-searchable"»..«/div» 

» <table class="infobox biota" style-"text-align: left; width: 200px; font-size: 100%"> 
~</table> 

> <p>..</p> 


图 2-6 示例 的 HTML 结构 


这 实际 上 是 维基 百科 “苹果 ” 词 条 的 页 面 结 构 , 用 户 可 以 通过 多 种 方式 获得 页 面 
中 的 Apple 这 个 大 标题 (hl 元 素 ) ,例如 : 

from lxml import html 

# 访问 链接 ,获取 HTML 


text = requests. get( ‘https: //en. wikipedia. org/wiki/Apple').text 
ht = html. fromstring(text) Ë HTML 解析 


hiEle= ht. xpath('// * [@id="firstHeading"]')[0] + 选取 id 为 firstHeading 的 元 素 


* 
N 
Lu 
E 
B 
fess 
x 
id 


print(hlEle. text) # 获取 text 

print(hiEle. attrib) Ë 获取 所 有 属性 ,保存 在 一 个 dict 中 
print(hlEle.get('class')) + 根据 属性 名 获取 属性 
print(hlEle.keys()) # 获取 所 有 属性 名 

print(hlEle. values()) # 获取 所 有 属性 的 值 


# 以 下 方法 与 上 面 对 应 的 语句 等 效 

# 使 用 间断 的 xpath 来 获取 属性 

Print(ht. xpath('// * [@id = "firstHeading"]')[0]. xpath( './@id')[0]) 
print(ht. xpath( '// * [@id = "firstHeading" ]')[0]. xpath( '. /text() ') [0]) 


* 直接 用 xpath 获取 属性 


print(ht.xpath('// * [@id = "firstHeading" ] position() =1]/text() )) 
print(ht.xpath('// * [@id  "firstHeading" ] position() = 1]/(21ang')) 


最 后 值得 一 提 的 是 ,如 果 script 与 style 标签 之 间 的 内 容 影响 解析 页 面 ,或 者 页 


面 很 不 规则 ,可 以 使 用 lxml. html. clean 这 个 模块 ,在 该 模块 中 包含 了 一 个 Cleaner 类 
来 清理 HTML 页 。 


需要 注意 的 是 ,参数 page_structure safe_attrs_only 设置 为 False 能 够 保证 页 面 


的 完整 性 ,否则 Cleaner() 可 能 会 将 元 素 的 属性 也 清理 掉 , 这 就 得 不 偿 失 了 。clean 的 
用 法 类 似 下 面 的 语句 : 


from lxml.html import clean 


cleaner = clean. Cleaner (style = True, scripts = True, page structure = False, safe attrs | 
only = False) 

hiclean = cleaner. clean_html(text. strip()) 

print(hiclean) 


2.5 遍历 页 面 


2.5.1 抓 取 下 一 个 页 面 


严格 地 说 ,一 个 只 处 理 单个 静态 页 面 的 程序 并 不 能 称 为 “ 聆 虫 ", 只 能 算是 一 种 最 


简化 的 网 页 抓 取 脚本 。 实 际 的 和 聆 虫 程序 所 要 面 对 的 任务 经 常 是 根据 某 种 抓 取 逻 辑 ， 
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一 个 页 面 的 链接 地 址 有 可 能 就 在 当前 页 面 的 某 个 元 素 中 ,也 可 能 是 通过 特定 的 数据 
Fi iie Ht OX cT f db. B0 f BUE WE) ,通过 从 “ 扑 取 当前 页 ”到 “进入 下 一 页 ”的 循环 实 
现 整个 候 取 过 程 。 正 是 由 于 扑 虫 程序 往往 不 会 满足 于 单个 页 面 的 信息 ,网 站 管理 者 
才 会 对 爬虫 如 此 鼠 昼 一 一 因为 同一 段 时 间 内 的 大 量 访问 总 是 会 威胁 到 服务 器 负 
载 。 下 面 的 伪 代 码 就 是 一 个 遍历 页 面 的 例子 ,其 针对 的 是 最 简单 形式 的 遍历 页 
即 不 断 疏 取 下 一 页 , 当 满足 某 个 判定 条 件 ( 例 如 已 经 到 达 尾 页 且 不 存在 下 一 页 ) 时 
停止 抓 取 。 


def looping crawl pages(starturl, manganame): 
ses = requests. Session() 
url cur page- starturl 


while True: 
print(url cur page) 


r= ses.get(url cur page, headers = header data, timeout = 10) 
+ 获取 想 要 的 Web 元 素 并 处 理 数据 

# 例如 将 数据 保存 到 文件 

url_next_page=... # 获取 下 一 页 的 URL 


if not have next page(): 
print('At the end of pages! Done! ') 
break 

else: 
url cur page- url next page 


E ifi f CS JB Y — A fi] ER E db OU , 接 下 来 通过 一 个 例子 来 实现 这 个 模 
型 。360 新 闻 站 点 提供 了 新 闻 搜索 结果 页 面 ,输入 关键 词 ,可 以 得 到 一 组 关键 词 新 闻 
搜索 的 结果 页 面 。 如 果 用 户 想 要 抓 取 特 定 关键 词 对 应 的 每 条 新 闻 报 道 的 大 体 信 
息 , 就 可 以 通过 仆 虫 的 方式 来 完成 。 图 2-7 是 搜索 “西湖 ”关键 词 的 结果 页 面 ,这 个 
页 面 的 结构 相对 而 言 是 很 简单 的 ,用 户 使 用 BeautifulSoup 中 的 基本 方法 即 可 完成 
抓 取 。 


2.5.2 ”完成 仅 虫 程序 


以 爬 取 ”北京 ?关键 词 对 应 的 新 闻 结 果 为 例 , 观 察 360 新 闻 的 搜索 页 面 ,用 户 很 容 
易 发 现 翻 页 这 个 逻辑 是 通过 在 URL 中 对 参数 pn 进行 递增 实现 的 ,在 URL 中 还 有 其 
他 参数 ,暂时 不 去 关心 它们 的 含义 。 于 是 实现 “ 抓 取 下 一 页 ”的 方法 就 很 简单 了 ,构造 
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( 〇 360 新 闻 | 西湖 - 


TUER 3 天 前 

攻坚 196 天 -西湖 大 学 项 目 用 地 保障 纪 路 
中 华人 民 共 和 国 国 土 资源 部 4 天 前 

MRSS RUOTE HARES 
ARR 4 天 前 

二 水 相伴 西湖 更 多 了 一 后 诗意 

国际 在 线 5 天 前 


快 资讯 5 天 前 
瓜 州 县 西湖 镇" 三 变 "改革 促 增收 
快 资讯 5 天 前 


快 资讯 sam 

皇 阳 高 铁 新 区 将 建 大 型 综合 体 ,西湖 新 区 将 引进 大 型 游乐 场 
快 资讯 6 天 前 

扬州 着 西湖 街道 为 民 服务 有 新 招 居民 享福 利 

快 资讯 6 天 前 

西湖 "十 晤 "之 一 ,你 知道 吗 ?单单 名 字 就 美 得 不 像 话 ! 

快 资讯 2018-04-11 05:28 

杭州 " 试 水 "区 块 链 西湖 龙井 可 追溯 

新 华 网 2018-04-10 08:43 


图 2-7 360 新 闻 搜索 “西湖 "的 结果 页 面 
一 个 存储 了 每 一 页 URL 的 列表 ,由 于 它们 只 是 在 参数 pn 上 不 同 ,其 他 内 容 完 全 一 
致 ,所 以 使 用 str 的 format() 方 法 即 可 。 接 着 通过 Chrome 的 开发 者 工具 观察 一 下 网 
页 ,如 图 2-8 所 示 。 


P<li class-"res-list"».«/li» 
v<li class="res-list"> 
vea AS href="! 
€.129853576.htm" target="_blank” relatnoopener noreferrer"» == $0 


"标本 兼治 ib" 
<em> 北 京 </em> 
"REAR" 
</a> 
><div class="ntinfo">.</div> 
after 


图 2-8 新 闻 标 题 的 网 页 代码 结构 
可 以 发 现 ,一 则 新 闻 的 关键 信息 都 在 < a ></a > 和 与 它 同 级 的 < div class — 
"ntinfo"> 中 ,用户 可 以 通过 BeautifulSoup 找到 每 一 个 < a ></a > 结 点 ,而 同 级 的 div 
可 以 通过 next sibling 定位 到 。 新 闻 对 应 的 原始 链接 则 可 以 通过 tag. get("href") 77 


(74) Python Py 24 TE ch Sc 5x | 


A 


法 得 到 。 将 数据 解析 出 来 后 ,用 户 可 以 考虑 通过 数据 库 进行 存储 ,为 此 需要 先 建立 一 
个 newspost 表 , 其 字段 包括 post_title、post_url、newspost_date, 分 别 代 表 一 则 报道 
的 标题 ` 原 地 址 以 及 日 期 。 最 终 编写 的 这 个 怜 虫 程序 见 例 2-1。 

【 例 2-1】 最 简单 的 遍历 多 页 面 的 怜 虫 。 


A 


import pymysql. cursors 
import requests 

from bs4 import BeautifulSoup 
import arrow 


urls =[ 

u'https: //news. so. com/ns?q = 北京 &pn = { }&tn = newstitle&rank = rank&j = 0&nso = 10&tp = 
11&nc = 0&src = page’ 

,format(i) for i in range(10) 

] 
for i,url in enumerate(urls) : 

r= requests. get (url) 

bs1 = BeautifulSoup(r. text) 

items = bsl.find all('a', class - 'news title') 


t list-[] 
for one in items: 
t item- [] 
if '360' in one. get( 'href') : 
continue 
t item. append(one. get( 'href ') ) 
t item. append(one. text) 
date = [one.next sibling][0].find('span', class - 'pdate').text 


if len(date) « 6: 

date = arrow.now().replace(days = - int(date[ :1])).date() 
else: 

date = arrow.get(date[:10], 'YYYY - MM- DD'). date() 


t item.append(date) 
t list.append(t item) 


connection = pymysql.connect(host- 'localhost', 
user = 'scraperl', 
password = 'password', 
db = 'DBS', 
charset = 'utf8', 
cursorclass = pymysql. cursors. DictCursor) 
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try: 
with connection.cursor() as cursor: 
for one in t list: 

try: 

sql_q = "INSERT INTO 'newspost'('post title', 'post_url', 'news_postdate', ) VALUES 
(%s, %s, *s)" 

cursor. execute(sql_g, (one[1], one[0], one[2])) 

except pymysql. err. IntegrityError as e: 
print(e) 
continue 


connection. commit() 


finally: 
connection. close() 


这 里 需要 注意 的 是 ,由 于 360 新 闻 搜 索 结 果 页 面 中 的 日 期 格式 并 不 一 致 ,对 于 比 
较 旧 的 新 闻 ,采用 类 似 “2017-12-30 05:27” 这 样 的 格式 ,而 对 于 刚刚 发 布 的 新 闻 ,使 用 
3 pL 10 小 时 之 前 这样 的 格式 ,因此 用 户 需要 对 不 同 的 时 间 日 期 字符 串 统一 格式 ， 
将 “XXX 之 前 ”转化 为 “2017-12-30 05:27" WER: 

if len(date) < 6: 

date = arrow. now(). replace(days =- int(date[:1])).date() 


else: 
date = arrow.get(date[:10], 'YYYY - MM - DD’). date() 


上 面 的 代码 使 用 了 arrow, 这 是 一 个 比 datetime 更 方便 的 高 级 API 库 ,其 主要 用 
途 就 是 对 时 间 日 期 对 象 进行 操作 ,详细 介绍 可 见 附录 A 中 的 相关 内 容 。 


connection = pymysql.connect(host = 'localhost', 
user = 'scraperl', 
password = 'password', 
db = 'DBS', 
charset = 'utf8', 
cursorclass = pymysql. cursors. DictCursor) 


这 段 代 码 建立 了 一 个 connection 对 象 ,代表 一 个 特定 的 数据 库 连接 ,后 面 的 
try-except 代码 块 中 通过 connection 的 cursor() (游标 ) 进 行 数据 的 读 / 写 。 最 后 , 运 
行 上 面 的 代码 并 在 Shell 中 访问 数据 库 , 使 用 select 语句 查看 抓 取 的 结果 ,如 图 2-9 
所 示 。 
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北京 市 全 力 支持 拉萨 教育 事业 发 展 纪实 

北京 赛车 全 天 稳定 计划 

北京 大 学 金融 操盘手 告诉 你 一 旦 出 现 " 庄 家 洗盘 "形态 ERRA 
北京 市 民政 局 社团 办 联合 党 委 党 建 到 国 华人 才 测 评 工 程 研究 院 调研 


图 2-9 数据 库 中 的 结果 示例 
这 是 第 一 个 比较 完整 的 怜 虫 程序 ,虽然 简单 ,但 “麻雀 虽 小 ,五 脏 俱全 ”, 基 本 上 代 
表 了 网 页 数据 抓 取 的 大 体 逻 辑 。 读 者 理解 这 个 数据 获取 、 解 析 、 存 储 、 处 理 的 过 程 也 
将 有 助 于 后 续 的 怜 虫 程序 学 习 。 


2.6 使 用 API 


2.6.1 API 简介 


所 谓 的 采集 网 络 数据 不 一 定 必 须 从 网 页 中 抓 取 数据 , API (Application 
Programming Interface, 应 用 编程 接口 ) 的 用 处 就 在 这 里 : API 为 开发 者 提供 了 方便 、 
友好 的 接口 ,不 同 的 开发 者 用 不 同 的 语言 能 获取 同样 的 数据 ,使 得 信息 被 有 效 地 共 
享 。 目 前 各 种 不 同 的 软件 应 用 (包括 各 种 编程 模块 ) 有 着 各 自 不 同 的 API, 这 里 讨论 
的 API 主要 是 指 “ 网 络 API”, 它 允许 开发 者 用 HTTP 协议 向 API 发 起 某 种 请 求 , 从 
而 获取 对 应 的 某 种 信息 。 目 前 ,API 一 般 以 XMLCeXtensible Markup Language. 可 
扩展 标记 语言 ) 或 者 JSON (JavaScript Object Notation) 格式 返 回 服务 器 响应 ,其 中 
JSON 数据 格式 更 是 越 来 越 受 人 们 的 欢迎 。 

API 与 网 页 抓 取 看 似 不 同 , 但 其 流程 都 是 从 “请求 网 站 ?到 “获取 数据 ?再 到 “处 理 
数据 ,二 者 也 共用 许多 概念 和 技术 。 其 实 ,API 免 去 了 开发 者 对 复杂 网 页 进行 抓 取 
的 麻烦 。API 的 使 用 也 和 * 抓 取 网 页 ”没有 太 大 的 区 别 ,第 一 步 总 是 去 访问 一 个 URL 
地 址 ,这 和 使 用 HTTP GET 来 访问 URL 一 模 一 样 。 如 果 非 要 给 API 一 个 不 叫 “ 网 
页 抓 取 ”的 理由 , 那 就 是 API 请 求 有 自己 的 严格 语法 ,而 且 不 同 于 HTML 格式 , 它 会 
使 用 约定 的 JSON 和 XML 格式 来 呈现 数据 。 图 2-10 所 示 为 微 博 开 发 者 API 的 文档 
页 面 。 
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图 2-10 一 个 微 博 API 的 文档 


在 使 用 API 之 前 ,用 户 需 要 先 在 提供 API 服务 的 网 站 上 申请 一 个 接口 服务 。 目 
前 ,国内 外 的 APT 服务 都 有 免费 \ 收 费 两 种 类 型 (收费 服务 的 目标 客户 一 般 是 商业 应 
用 和 企业 级 开发 者 ) ,在 使 用 API 时 需要 验证 客户 身份 。 通 常 ,验证 身份 的 方法 都 是 
使 用 token, 每 次 对 API 进行 调用 都 会 将 token 作为 一 个 HTTP 访问 的 一 个 参数 传 
送 到 服务 器 。 这 种 token 在 很 多 时 候 都 以 "API KEY” 的 形式 来 体现 ,可 能 是 在 用 户 
注册 (对 于 收费 服务 而 言 就 是 购买 ) 该 服务 时 分 配 的 固定 值 ,也 可 能 是 在 准备 调用 时 
动态 分 配 。 下 面 是 一 个 调用 API 的 例子 : 

http://samples. openweathermap. org/data/2. 5/weather? q= London. uk&-appid= 


b1b15e88fía797225412429c1c50c122a1 


返回 的 数据 如 下 : 
( "coord": ( " lon": - 0. 13," lat": 51. 51), " weather": [( " id": 300," main":" Drizzle", 
"description":" light intensity drizzle"," icon":" 09d"}]," base":" stations"," main": 


(" temp" :280. 32, "pressure" : 1012," humidity": 81,"temp_min":279.15,"temp_max": 281. 15}, 
"visibility" :10000," wind": ( " speed": 4. 1," deg": 80), " clouds": ( "all": 90)," dt": 
1485789600, "sys" : ( " type" : 1," id": 5091," message": 0. 0103, " country" :" GB", " sunrise": 
1485762037, "sunset" :1485794875] , " id" :2643743, "nane" : "London" , "cod" :200} 


这 是 OpenWeatherMap 网 站 提供 的 查询 天 气 的 API,appid 的 值 扮演 了 token ff 
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角色 。 用 户 可 以 访问 该 网 站 并 注册 ,开启 免费 服务 后 就 能 够 得 到 一 个 APT KEY CW 
图 2-11) ,服务 器 会 识别 出 这 个 值 , 然 后 向 请 求 方 提供 JSON 数据 。 


API keys Home 


Activation of an API key for Free and Startup accounts takes 10 minutes. For other accounts it takes from 10 to 60 minutes. 
You can generate as many API keys as needed for your subscription. We accumulate the total load from all of them. 


Key Name Create key 


C^ mame r pds Default 
*Name 


图 2-11 在 OpenWeatherMap 网 站 查看 API KEY 


对 于 这 样 的 JSON 数据 格式 ,读者 会 在 书 中 经 常 接触 ,实际 上 这 正 是 网 络 候 虫 经 
常 需要 应 对 的 数据 形式 。JSON 数据 的 流行 与 JavaScript 的 发 展 密切 相关 ,当然 ,这 
也 并 不 是 说 XML 不 重要 。 

不 同 的 API 虽 然 有 着 不 同 的 调用 方式 ,但 总 体 来 看 是 符合 一 定 准则 的 。 当 用 户 
GET 一 份 数据 时 , URL 本 身 就 带 有 查询 关键 词 的 作用 ,很 多 API 通过 文件 路 径 
(path) 和 请 求 参数 (request parameter) 的 方式 来 指定 数据 关键 词 和 APT 版 本 。 


2.6.2 API 使 用 示例 


这 里 以 Google( 也 许 是 目前 地 球 上 最 强大 的 信息 技术 公司 ) 提 供 的 网 络 API 库 
为 例 , 试 写 一 段 代码 来 请 求 API 为 用 户 提供 想 要 的 数据 。Google 的 API 库 十 分 强 
大 ,翻译 .地 理 信息 、 日 历 等 都 可 以 通过 API 来 访问 ,此 外 ,Google 还 为 YouTube 和 
Gmail 这 些 旗下 的 知名 应 用 网 站 提供 了 对 应 的 API。 用 户 可 以 通过 访问 Google 控制 
f (https: //console. developers. google. com/apis/) 3} # API 检索 页 面 (https:// 
developers. google. com/apis-explorer/) 来 查看 API。 控 制 台 是 一 个 十 分 方便 的 工 
具 , 在 这 里 用 户 能 够 随时 查看 和 管理 API 调用 ,或 者 访问 API 库 查看 更 多 有 用 的 信 


息 。 如 果 大 家 没有 Google 账户 ,在 使 用 API 之 前 还 需要 注册 一 个 Google 账户 ,值得 
庆幸 的 是 Google 账号 对 Google 旗下 的 服务 是 通用 的 ,这 免 去 了 申请 授权 和 填写 密 
码 的 麻烦 。 

首先 ,在 凭据 页 面 中 创建 一 个 凭据 ( 见 图 2-12 中 的 API 密 钥 ) ,创建 之 后 ,用 户 可 
以 对 这 个 密 钥 进 行 限制 ,也 就 是 说 用 户 能 指定 哪些 网 站 LIP 地 址 或 应 用 可 以 使 用 此 
密 钥 ,这 能 够 保证 API KEY 密 钥 的 安全 ,对 于 收费 服务 而 言 , 没 有 设 定 限 制 的 密 钥 一 
旦 泄露 会 带 来 不 小 的 经 济 损失 。 如 果 创 建 了 多 个 项 目 , 用 户 可 以 为 每 个 项 目 指定 一 
个 特定 的 KEY. 
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图 2-12 Google API 的 凭据 页 面 

接 下 来 在 API ELE 2-13) 中 看 有 哪些 值得 尝试 的 东西 ,这 里 以 地 图 类 的 API 
为 例 ,Google 的 地 图 API 支持 很 多 不 同 的 功能 ,可 以 查询 一 个 经 纬度 的 时 区 ,可 以 将 
地 图 内 符 在 网 页 中 ,可 以 把 地 址 解析 为 经 纬度 ,等 等 。 

这 些 功 能 都 是 免费 的 ,用 户 在 开启 API 之 后 就 能 够 使 用 了 。Geocode API 能 够 
输出 一 个 地 址 的 地 理 位 置信 息 , 如 图 2-14 所 示 。 

下 面 尝试 编写 这 样 一 个 小 程序 , 它 能 够 根据 输入 的 地 址 查询 时 区 信息 , 先 通过 
Geocode 查看 其 经 纬度 ,之 后 使 用 TimeZone API 根据 经 纬度 查询 时 区 , 见 例 2-2。 
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图 2-13 Google API FE 
Ks C ñ à 安全 | https://maps.googleapis.com/maps/api/geocode/json?address=37+xueyuan+road+ Beijing China&key: 


"results" : [ 
"address components" : [ 


"long name" : "37", 
"short name" : "37", 


"types" : [ "street number" ] 
b, 
{ 
"long name" : "Xue Yuan Lu", 
"short name" : "Xue Yuan Lu", 
"types" : [ "route" ] 
» 
{ 
"long name" : "WuDaoKou", 
"short name" : "WuDaoKou", 
"types" : [ "neighborhood", "political" ] 
be 
4 
"long name" : "Haidian Qu", 
"short name" : "Haidian Qu", 
"types" : [ "political", "sublocality", "sublocality level 1" ] 
$r 
{ 
"long name" : "Beijing Shi", 
"short name" : "Beijing Shi", 
"types" : [ "administrative area level 1", "political" ] 
he 
{ 
"long name" : "China", 
"short name" : "CN", 
"types" : [ "country", "political" ] 
} 


2-14 Geocode API 返回 的 数据 


[BI 2-2] TimeZoneAPI. py, 调 用 时 区 API。 


import json, requests 


API KEY = 'your API KEY here’ 


def getGeo( add) : 
add = str(add).replace(' , '* ') 
quiry- V 
"https: //maps. googleapis. com/maps/api/geocode/' V 
'json?address = ()&key  ()' V 
. format ( 
add, 
API KEY 
) 
response - requests. get(quiry) 
j= json. loads(response. text) 
return 
j. get( 'results')[0]. get( 'geonetry').get( viewport').get( 'southwest').values() 


def getTimezone(vall, val2): 
quiry = \ 
"https://maps. googleapis. com/maps/api/timezone/json? location = { }, { } &timestamp = 
1412649030&key = {}'. \ 
format(vall, 
val2, 
API KEY) 


response 7 requests. get(quiry) 
j= json. loads( response. text) 
return j. get( 'timeZoneName'), j.get( 'timeZoneId') 


if name — main ^": 
print(getTimezone(34.68, 113.65)) 
address = input('Please input address: ') 
q= list(getGeo(address)) 


print(getTimezone(q[0], a[1])) 


这 里 使 用 了 一 组 经 纬度 作为 测试 ,(34. 68.113. 65) 是 中 国 郑州 的 经 纬度 ,运行 上 
的 脚本 : 
('China Standard Time', 'Asia/Shanghai') 


Please input address:Washington D.C. US 
('Eastern Daylight Time', 'America/New York') 


Python fs Te dà Sc 
§ 


此 处 输入 的 地 址 是 “Washington D. C. US?”, 即 美国 华盛顿 特区 ,其 输出 为 : 


(‘Eastern Daylight Time'，'Rmerica/New_ York') 


在 这 段 代 码 中 使 用 了 json 模块 , 它 是 Python 的 内 置 JSON 库 , 这 里 使 用 的 主要 
是 loads() 方 法 。 虽 然 这 个 例子 十 分 粗略 ,但 是 要 说 明 的 是 ,API 的 用 法 不 只 是 作为 
一 个 单纯 的 调用 查询 脚本 ,API 服务 还 可 以 整合 进 更 大 的 怜 虫 模块 里 ,起 到 一 个 工具 
的 作用 (比如 使 用 API 获取 代理 服务 作为 仆 虫 代理 )。 总 而 言 之 ,网 络 API 的 使 用 是 
网 络 爬 取 的 一 个 不 可 分 割 的 重要 部 分 ,说 到 底 , 用 户 无 论 编写 什么 样 的 怜 虫 程序 , 任 
务 都 是 类 似 的 ,都 是 访问 网 络 服务 器 、 解 析 数 据 、 处 理 数据 。 


2.7 本 章 小 结 


本 章 引 入 了 Python 网 络 候 虫 的 基本 使 用 和 相关 概念 ,介绍 了 正则 表达 式 、 
BeautifulSoup 和 xml 等 常见 的 网 页 解析 方式 ,最 后 还 对 API 数据 抓 取 进行 了 讨论 。 
本 章 中 的 内 容 是 编写 网 络 息 虫 程序 的 重要 基础 ,其 中 lxml、BeautifulSoup 等 工具 的 
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文件 与 数据 的 存储 


Python 以 简洁 见长 ,在 其 他 语言 中 比较 复杂 的 文件 读 写 和 数据 10, TE Python 中 
由 于 比较 简单 的 语法 和 丰富 的 类 库 而 显得 尤为 方便 。 本 章 将 从 最 简单 的 文本 文件 的 
读 写 出 发 ,重点 介绍 CSV 文件 的 读 写 和 操作 数据 库 , 同 时 介绍 一 些 其 他 形式 的 数据 
的 存储 方式 。 


3.1 Python 中 的 文件 


3.1.1 基本 的 文件 读 写 


谈 到 Python 中 的 文件 读 写 :总 会 使 人 想到 “open" 关 键 字 ,其 最 基本 的 操作 如 下 
H] 的 示例 : 


# 最 朴素 的 open() 方 法 

f = open( 'filename. text’, 'r') 
# 做 点 事情 

f.close() 
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# 使 用 中 th, 在 语句 抉 结束 时 会 自动 关闭 
with open( 't1. text', 'rt') as f: # 工 代表 read,t 代 表 text, 一 般 “t? 为 默认 ,可 和 省略 


content = f.read() 


with open( tl.txt', rt') as f: 
for line in f: 
print(line) 
with open('t2.txt', 'wt') as f: 
f.write(content) # FA 


append str = ‘append’ 

with open( 't2.text', at') as f: 
# 在 已 有 内 容 上 追加 写 人 ,如 果 使 用 “w”, 则 已 有 内 容 会 被 清除 
f.write(append str) 

# 文件 的 读 写 操作 默认 使 用 系统 编码 ,一 般 为 utf8 

# 使 用 encoding 设置 编码 方式 

with open( 't2.txt', 'wt' encoding = 'ascii') as f: 
f.write(content) 

# 编码 错误 总 是 很 烦人 ,如 果 用 户 觉得 有 必要 暂时 忽略 ,可 以 如 下 

with open('t2.txt', 'wt', errors = 'ignore') as f: 忽略 错误 的 字符 
f.write(content) # BA 

with open('t2.txt', 'wt', errors = 'replace') as f: # 替换 错误 的 字符 
f.write(content) # BA 


* 重 定向 print() 函 数 的 输出 
with open( 'redirect. txt', 'wt') as f: 
print('your text', file- f) 


* 读 写 字 节 数据 ,例如 图 片 .音频 
with open( 'filename. bin', 'rb') as f: 
data = f. read() 


with open( filename.bin', 'wb') as f: 
f.write(b'Hello World') 


# 从 字 节 数据 中 读 写 文本 (字符 串 ), 需 要 使 用 编码 和 解码 
with open( filename.bin', 'rb') as f: 
text = f. read(20) . decode( 'utf - 8') 


with open('filename.bin', 'wb') as f: 
f. write('Hello World'.encode('utf - 8')) 

用 户 不 难 发 现 , 在 open() 的 参数 中 ,第 一 个 是 文件 路 径 ,第 二 个 是 模式 字符 ( 串 )， 
代表 了 不 同 的 文件 打开 方式 ,比较 常用 的 是 “r”( 代 表 读 )、“w”( 代 表 写 )、“a”( 代 表 写 ， 
并 追加 内 容 ),“w” 和 “a” 经 常 引起 混淆 ,其 区 别 在 于 ,如 果 用 “w” 模 式 打 开 一 个 已 存在 
的 文件 ,会 清空 文件 里 的 内 容 数 据 , 重 新 写 和 人 新 的 内 容 , 如 果 用 “a”, 不 会 清空 原 有 数 
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据 , 而 是 继续 追加 写 入 内容 。 对 模式 字符 ( 串 ) 的 详细 解释 见 图 3-1. 


Character Meaning 

open for reading (default) 

open for writing, truncating the file first 

create a new file and open it for writing 

open for writing, appending to the end of the file if it exists 
binary mode 

text mode (default) 

open a disk file for updating (reading and writing) 

universal newline mode (deprecated) 


cidcowgxz-4 


图 3-1 open() 函 数 定义 中 的 模式 字符 


在 一 个 文件 (路 径 ) 被 打开 后 ,用户 就 拥有 了 一 个 file 对 象 (在 其 他 一 些 语言 中 常 
被 称 为 句柄 ) ,这 个 对 象 也 拥有 自己 的 一 些 属性 : 


f = open('hl.html', r') 


print(f.name) # 文件 各, hl. html 
print(f.closed) # 是 否 关闭 ,False 
print(f. encoding) # 编码 方式 ,US - ASCII 
f.close() 

print(f.closed) * True 


当然 ,除了 最 简单 的 read O FI write() 方 法 以 外 ,还 有 一 些 其 他 的 方法 : 


# t1.txt 的 内 容 
# line 1 

# line 2: cat 
# line 3: dog 
* 

# line 5 


with open( 't1.txt', r') as fl: 


# 返回 是 否 可 读 

print(fl.readable()) * True 

# 返回 是 否 可 写 

print(fl.writable()) # False 

+ ETER 

print(f1. readline()) # line 1 

print(f1. readline()) # line 2: cat 

# 读 取 多 行 到 列表 中 

print(f1. readlines()) * ['line 3: dog\n', ‘\n', line 5'] 
# 返回 文件 指针 的 当前 位 置 

print(f1. tell()) * 38 

print(£1. read()) + 指针 在 末尾 ,因此 没有 读 取 到 内 容 


f1. seek(0) * 重 设 指针 
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# 重新 读 取 多 行 
print(fl.readlines()) # ['line 1\n', 'line 2: cat\n', ‘line 3: dog\n', '\n', ‘line 5'] 


with open('tl.txt', 'a* ') as f1: 
f1.write('new line') 


f1.writelines(['a', 'b', 'c']) + 根据 列表 写 人 
£1. flush() + 立刻 写 人 ,实际 上 是 清空 I0 缓存 
3.1.2 序列 化 


Python 程序 运行 时 ,其 变量 (对 象 ) 都 保存 在 内 存 中 ,一 般 把 “将 对 象 的 状态 信息 
转换 为 可 以 存储 或 传输 的 形式 的 过 程 称 为 (对 象 的 ) 序 列 化 。 通 过 序列 化 ,用 户 可 以 
在 磁盘 上 存储 这 些 信 息 , 或 者 通过 网 络 来 传输 ,并 最 终 通过 反 序列 化 过 程 重新 读 人 内 
存 ( 可 以 是 另外 一 个 计算 机 的 内 存 ) 且 使 用 。 在 Python 中 主要 使 用 pickle 模块 来 实 
现 序列 化 和 反 序 列 化 。 下 面 就 是 一 个 序列 化 的 小 例子 : 

import pickle 

231837355271 


with open('11.pkl', 'wb') as f1: 
pickle. dump(11, f1) # 序列 化 


with open('11.pkl', rb') as f2: 
12 = pickle. load( f2) 
print(12) HU chs S577] 


在 pickle 模块 的 使 用 中 还 存在 一 些 细节 ,比如 dump() 和 dumps() 两 个 方法 的 区 
WEF dumps() 将 对 象 存储 为 一 个 字符 串 ,与 之 相对 应 ,可 以 使 用 loads() 来 恢复 ( 反 
序列 化 ) 该 对 象 。 从 某 种 意义 上 说 ,Python 对 象 都 可 以 通过 这 种 方式 来 存储 、 加 载 ， 
不 过 有 一 些 对 象 比较 特殊 ,无 法 进行 序列 化 ,例如 进程 对 象 、 网 络 连接 对 象 等 。 


3.2 字符 串 


FREE Python 中 最 常用 的 数据 类 型 ,Python 为 字符 串 操 作 提 供 了 很 多 有 用 
的 内 建 函 数 (方法 ) ,下 面 介绍 几 种 常用 的 方法 。 
* str. capitalizeO : 返回 一 个 以 大 写字 母 开 头 , 其 他 都 小 写 的 字符 串 。 
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str. count(str, beg—0. end=len(string)): 返回 str 在 string 里 面 出 现 的 次 
数 , 如 果 beg( 开 始 ) 或 者 end (结束) 被 设置 , 则 返回 指定 范围 内 str 出 现 的 
次 数 。 

str. endswith(obj, beg—0. end=len(string)): 判断 一 个 字符 串 是 否 以 参数 
obj 结束 ,如 果 beg 或 者 end 指定 , 则 只 检查 指定 的 范围 。 其 返回 布尔 值 。 

str. findO : 检测 str 是 否 包含 在 string 中 ,这 个 方法 与 str.index() 方 法 类 似 ， 
不 同 之 处 在 于 str. index() 如 果 没 有 找到 会 返回 异常 。 

str. formatO : 格式 化 字符 串 。 

str. decode(): 以 encoding 指定 的 编码 格式 解码 。 

str. encode(): 以 encoding 指定 的 编码 格式 编码 。 

str.join(): 以 str 作为 分 隔 符 ,把 参数 中 所 有 的 元 素 的 字符 串 表 示 合 并 为 一 
个 新 的 字符 串 ,要 求 参数 是 iterable。 

str. partitionCstring) : 从 string 出 现 的 第 一 个 位 置 起 ,把 字符 串 str 分 成 一 个 
3 元 素 的 元 组 。 

str. replace(strl.str2) ; 将 str 中 的 strl 替换 为 str2, 这 个 方法 还 能 够 指定 蔡 
换 次 数 ,十 分 方便 。 

str. split(strl 一 ""，num 一 str. count(str1)): 以 str] 为 分 隔 符 对 str 进行 切 
片 , 这 个 函数 容易 让 人 联想 到 re 模块 中 的 re. split() 方 法 ( 见 第 2 章 的 相关 内 
容 ) ,前 者 可 以 视 为 后 者 的 弱化 版 。 

str. strip(): 去 掉 str 左 、 右 两 侧 的 空格 。 

这 里 通过 一 段 代码 演示 上 面 函 数 的 功能 : 


sl = 'mike’ 

s2 = 'miKE' 

print(s1.capitalize()) # Mike 

print(s2.capitalize()) * Mike 

s1 = 'aaabb' 

print(sl.count('a')) 

print(s1.count('a',2, len(s1))) 

print(sl.endswith( 'bb')) 

print(sl.startswith('aa')) 

cities str- ['Beijing', Shanghai', 'Nanjing', 'Shenzhen'] 

print([cityname for cityname in cities str if cityname. startswith(('S', N'))]) € 比较 复杂 
# 的 用 法 
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* ['Shanghai', 'Nanjing', 'Shenzhen'] 


print(sl.find('aa')) #0 
print(s1. index('aa')) #0 
print(sl.find('c')) Ere 
# print(sl. index('c')) * (AiR 


print('There are some cities: '* ', '. join(cities_str)) 
# There are some cities: Beijing, Shanghai, Nanjing, Shenzhen 


print(sl.partition('b')) # ('aaa', 'b', 'b') 
print(s1.replace('b','c',1)) # aaacb 
print(s1.replace('b','c',2)) # aaacc 

print(s1. replace( 'b', 'c')) # aaacc 
print(s2.split('K')) # ['mi' E] 

s3=' aabcc' 

print(s3.strip()) 4 *a abo’ 
print(s3.lstrip()) d "aabcc* 
print(s3.rstrip()) # sea 

# 最 常见 的 format() 的 使 用 方法 

print('() is a {}'. format( ‘He’, '"Boy')) # He is a Boy 

# 指明 参数 编号 

print('(1) is a (0) '. format( ‘Boy’, 'He')) # He is a Boy 

# 使 用 参数 名 

print('(who) is a (what) '. format(who = 'He', what = 'boy')) * He is a boy 
print(s2. lower()) # mike 
print(s2.upper()) * MIKE, 注意 该 方法 与 capitalize()^ [n] 


除了 这 些 方法 以 外 ,Python 的 字符 串 还 支持 其 他 一 些 实用 方法 。 另 外 ,如 果 要 
对 字符 串 进 行 操作 ,正则 表达 式 往往 会 成 为 十 分 重要 的 配套 工具 ,关于 正则 表达 式 的 
内 容 可 参考 第 2 章 和 附录 A。 


3.3 Python 与 图 片 


3.3.1 PIL 与 Pillow 


PIL(Python Image Library) 是 Python 中 用 于 图 片 . 图 像 的 基础 工具 ,而 Pillow 
可 以 认为 是 基于 PIL 的 一 个 变 体 ( 正 式 说 法 是 “分 支 ”) ,在 某 些 场合 ,PIL 和 Pillow 可 
以 当成 同义词 使 用 ,因此 这 里 主要 介绍 一 下 Pillow。 在 这 之 前 ,如 果 用 户 没有 安装 
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Pillow ,记得 要 先 通过 pip 安装 。Pillow 的 主要 模块 是 “Image”, 其 中 的 Image 类 是 比 
较 常用 的 : 


from PIL import Image, ImageFilter 


# 打开 图 像 文 件 

img = Image. open( ‘cat. jpeg') 

ing. show() + 查看 图 像 

print(img. size) *OEMRRGE 5818 (289, 174) 
print (img. format) * 图 像 文件) 格式 ,输出 JPEG 
w,h= img, size 

# 缩放 

img. thumbnail((w//2, h//2)) 

# 保存 缩放 后 的 图 像 

img. save( thumbnail.jpg', 'JPEG') 


img. transpose( Image. ROTATE 90). save( 'r90. jpg’) + 旋转 90" 
img.transpose(Image.FLIP LEFT RIGHT).save('l2r.jpg') # 左右 翻转 


img. filter( ImageFilter. DETAIL). save( ‘detail. jpg') # 不 同 的 滤 镜 
img. filter( ImageFilter. BLUR). save( 'blur. jpg') 


img. crop( (0,0, w//2, h//2)) . save( 'crop. jpg’) + 根据 参数 指定 的 区 域 裁剪 图 像 
# 创建 新 图 片 

img2 = Image. new(" RGBA" , (500, 500), (255,255,0)) 

img2. save(" new. png" , " PNG" ) # 创建 一 张 500 x 500 的 纯色 图 片 
img2. paste( ing, (10,10)) # 将 ing 粘贴 到 指定 位 置 


img2. save( 'combine. png') 


上 面 代码 的 运行 结果 见 下 面 的 几 张 图 片 ,图 3-2 是 缩放 前 后 的 图 片 对 比 ,图 3-3 
是 翻转 、 旋 转 后 的 图 片 效 果 , 图 3-4 是 BLUR 后 的 效果 (模糊 效果 ) ,图片 的 粘贴 效果 
可 见 图 3-5。 


图 3-2 缩放 前 后 的 图 片 对 比 
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图 3-3 翻转 、 旋 转 后 的 图 片 


iX 


图 3-4 BLUR 后 的 图 片 图 3-5 ”粘贴 后 的 图 片 


在 实际 使 用 中 ,PIL 的 Image. save() 方 法 常用 来 做 图 片 格式 的 相互 转换 ,而 缩放 
等 方法 也 十 分 实用 。 在 网 页 抓 取 中 , 当 用 户 遇 到 需要 保存 较 小 的 图 片 时 ,可 以 先进 行 
缩放 处 理 再 存储 。 


3.3.2 Python 与 OpenCV 简介 


与 基本 的 PIL 相 比 ,OpenCV 更 像 是 一 把 瑞士 军刀 。cv2 模块 则 是 比较 新 的 接口 
WRAL. OpenCV 的 全 称 是 Open Source Computer Vision Library, 它 基于 C/C++ if 
i ,但 经 过 包装 后 可 在 Java 和 Python 等 其 他 语言 中 使 用 。OpenCV 由 英特尔 公司 发 
,可 以 在 商业 和 学 术 领 域 免 费 、 开 源 使 用 ,2009 年 后 的 OpenCV 2. 0 版 本 是 目前 比 
常见 的 版 本 。 目 前 已 经 出 现 了 OpenCV3 版 本 ,但 OpenCV 2. 0 仍旧 受到 广泛 欢 
于 免费 开源、 功能 丰富 ,并 且 跨 平台 易于 移植 ,OpenCYV 已 经 成 为 目前 计算 机 


上 
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视觉 编程 与 图 像 处 理 方面 最 重要 的 工具 之 一 。 图 3-6 是 OpenCV 的 官方 站 点 。 


G o ABOUT NEWS EVENTS RELEASES PLATFORMS BOOKS LINKS LICENSE 


OpenCV 


OpenCV (Open Source Computer Vision Library) is released under a BSD license and hence it's 

free for both academic and commercial use. It has C++, Python and Java interfaces and Quick Links 
supports Windows, Linux, Mac OS, iOS and Android. OpenCV was designed for computational 

efficiency and with a strong focus on real-time applications. Written in optimized C/C++, the Online documentation 
library can take advantage of multi-core processing. Enabled with OpenCL, it can take — 13 Tutorials 

advantage of the hardware acceleration of the underlying heterogeneous compute platform. 


User Q&A forum 
Adopted all around the world, OpenCV has more than 47 thousand people of user community — e Report a bug 
and estimated number of downloads exceeding 14 million. Usage ranges from interactive art, 
to mines inspection, stitching maps on the web or through advanced robotics. Build farm 


Developer site 
Wiki 
| Donate | 


图 3-6 OpenCV 的 官方 站 点 
如 果 要 在 Python 中 使 用 cv2 模块 ,需要 先 在 计算 机 上 安装 OpenCV 包 。 其 实 它 
在 Windows 系统 上 的 安装 并 没有 想象 中 那么 复杂 ,将 从 下 载 网 址 (https://opencv. 
org/releases. html) 中 下 载 对 应 的 OpenCV 包 解 压 , 然 后 将 “C:/opencv/build/ 
python/2.7” FAY cv2. pyd 文件 复制 到 “*C:/Python27/lib/site-packages” 即 可 。 
在 Mac 系统 上 , 则 可 以 使 用 包 管 理工 具 homebrew 进行 快速 安装 ,如 图 3-7 
所 示 。 


==> Summary 
/usr/local/Cellar/sqlite/3.23.1: 11 files, 3MB 
==> Installing opencv dependency: xz 
==> Downloading https://homebrew.bintray.com/bottles/xz-5.2.3.high sierra.bottle 
LHHUHHHHHHHHHHHHEHDLHHULHHHBHHULHIEIEAI UH AL GLHHHHUHHUHHHHAHIAHE 100 098 
==> Pouring xz-5.2.3.high sierra.bottle.tar.gz 
Ip /usr/local/Cellar/xz/5.2.3: 92 files, 1.4MB 
==> Installing opencv dependency: python 


图 3-7 homebrew 安装 OpenCV 的 过 程 


使 用 下 面 的 命令 安装 homebrew: /usr/bin/ruby -e " $ (curl -fsSL https: //raw. 
githubusercontent. com/ Homebrew/install/master/install)". 

安装 成 功 后 ,使 用 命令 brew update 和 brew install opencv 即 可 一 键 安装 。 除 了 
OpenCV 以 外 ,Redis\MySQL OpenSSL 等 也 可 以 使 用 这 种 方法 安装 。 


o 
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最 终 在 Python 中 导入 cv2, 查 看 当前 版 本 .安装 成 功 : 


>>> cv2. version _ 
'3.4.0" 


由 于 OpenCV 已 经 是 比较 专业 的 图 像 处 理工 具 包 ,这 里 对 OpenCV 的 具体 使 用 
就 不 详细 介绍 了 ,在 开发 时 如 果 用 户 需 要 用 到 OpenCV, 可 以 随时 在 官方 站 点 
(https://docs. opencv. org/3. 0-beta/doc/py_tutorials/py_tutorials. html) 中 找到 相 
应 的 说 明 。 


3.4 CSV 文 件 


3.4.1 CSV 简介 


CSV 的 全 称 是 Comma Separated ValuesGE 54: Bá f) «CSV 文件 以 纯 文 本 形式 
存储 表格 数据 (数字 和 文本 )。CSV 文件 由 任意 数目 的 记录 组 成 ,记录 之 间 以 某 种 换 
行 符 ( 一 般 是 制 表 符 或 者 逗号 分隔, 每 条 记录 中 是 一 些 字段 。 在 进行 网 络 抓 取 时 ,用 
户 难免 会 遇 到 CSV 文件 数据 ,而 且 由 于 CSV. 的 设计 简单 ,在 很 多 时 候 使 用 CSV 保存 
数据 (数据 有 可 能 是 原生 的 网 页 数据 ,也 可 能 是 已 经 经 过 疏 虫 程序 处 理 后 的 结果 ) 十 
分 方便 。 


3.4.2 CSV 的 读 写 


Python 的 CSV 面向 的 是 本 地 的 CSV 文件 ,如 果 用 户 需要 读 取 网 络 资 源 中 的 
CSV, 为 了 让 用 户 在 网 络 中 遇 到 的 数据 也 能 被 CSV. 以 本 地 文件 的 形式 打开 ,可 以 先 
把 它 下 载 到 本 地 ,然后 定位 文件 路 径 ,作为 本 地 文件 打开 ; 如 果 用 户 只 需要 读 取 一 
次 ,并 不 想 真 正 保 存 这 个 文件 (就 像 验证 码 图 片 那样 ,可 见 第 5 章 的 相关 内 容 ), 可 
以 在 读 取 操 作 结 束 后 用 代码 删除 文件 。 除 此 之 外 ,用 户 也 可 以 直接 把 网 络 上 的 
CSV 文件 当成 一 个 字符 串 来 读 , 转 换 成 一 个 StringIO 对 象 后 就 能 够 作为 文件 来 操 
ET. 

【提示 】 10 X Input/Output 的 简写 , 意 为 输入 /输出 ,StringIO 就 是 在 内 存 中 读 
写字 符 串 。StringIO 针对 的 是 字符 串 ( 文 本 ), 如 果 还 要 操作 字 节 ,可 以 使 用 BytesIO。 
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使 用 StringIO 的 优点 在 于 ,这 种 读 写 是 在 内 存 中 完成 的 (本 地 文件 则 是 从 硬盘 读 
JBO ,因此 用 户 不 需要 先 把 CSV 文件 保存 到 本 地 。 例 3-1 是 一 个 直接 获取 网 上 的 
CSV 文件 并 读 取 打 印 的 例子 。 

【 例 3-1】 获取 在 线 CSV 文件 并 读 取 。 


from urllib.request import urlopen 
from io import StringIO 
import csv 


data = urlopen(" https: //raw. githubusercontent. com/ jasonong/List - of - US - States/master/ 
states. csv"). read() . decode( ) 

dataFile = StringI0(data) 

dictReader = csv. DictReader(dataFile) 

print(dictReader. fieldnames) 


for row in dictReader: 
print(row) 


运行 结果 为 : 


['State', 'Abbreviation'] 
('Abbreviation': 'AL', ‘State’: 'Alabama'] 
('Abbreviation': 'AK', 'State': 'Alaska') 


('Abbreviation': 'NY', ‘State’: 'New York'} 
'State': 'North Carolina'] 
'State': 'North Dakota'] 
{'Abbreviation': 'OH', 'State': 'Ohio'] 
('Abbreviation': 'OK', 'State': 'Oklahoma') 
{'Abbreviation': 'OR', 'State': 'Oregon') 


这 里 需要 说 明 一 下 DictReader O . DictReader O fff. CSV 的 每 一 行 作为 一 个 dict 
返回 ,而 reader() 则 把 每 一 行 作为 一 个 列表 返回 ,使 用 reader() 时 的 输出 是 这 样 的 : 


['State', 'Abbreviation'] 


['California', 'CA'] 
['Colorado', 'CO'] 
['Connecticut', 'CT'] 
['Delaware', 'DE'] 

['District of Columbia', 'DC'] 
['Florida', 'FL'] 
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['Georgia', 'GA'] 


用 户 根据 自己 的 需要 选用 读 取 形 式 即 可 。 
写 和 信和 读 取 是 反 向 操作 ,下 面 的 例子 展示 了 如 何 写 人 数据 到 CSV: 


import csv 


res list = [['A', 'B', 'C'], [1,2,3], [4,5,6],[7,8,91] 
with open( SAMPLE.csv', "a") as csv file: 
writer = csv.writer(csv file, delimiter = ',') 
for line in res_list: 
writer. writerow(line) 


打开 SAMPLE. csv 的 内 容 : 


A,B,C 
12,5 
4,5,6 


writer() 与 上 文 的 reader() 是 相对 应 的 ,这 里 需要 说 明 的 是 writerow() 方 法 和 
writerows() 方 法 。writerow() 顾 名 思 义 就 是 写 信 一行, 接收 一 个 可 迭代 对 象 作为 参 
数 ; writerows() 直 观 地 说 等 于 多 个 writerowO ,因此 上 面 的 代码 与 下 面 是 等 效 的 : 

res list 2 [['A', 'B', 'C'],[1,2,3],[4,5,6],[7,8,9]] 

with open( SAMPLE.csv', "a") as csv file: 


writer = csv.writer(csv file, delimiter = ',') 
writer.writerows(res list) 


如 果 说 writerow() 会 把 列表 中 的 每 个 元 素 作 为 一 列 写 入 CSV 的 一 行 中 ， 
writerows() 就 是 把 列表 中 的 每 个 列表 作为 一 行 再 写 人 。 所 以 如 果 用 户 误 用 了 
writerows() ,可 能 会 导致 让 人 啼笑 皆 非 的 错误 ， 

res list- ['I WILL BE ', "THERE', 'FOR YOU'] 

with open( SAMPLE.csv', "a") as csv file: 


writer = csv.writer(csv file, delimiter- ',') 
writer.writerows(res list) 


这 里 由 于 “I WILL BE? 是 一 个 字符 串 ,而 str 在 Python 中 是 iterable( 可 迭代 对 
象 ) ,所 以 这 样 写 人 ,最 终 的 结果 为 (逗号 为 分 隔 符 ) : 
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I, ,W,I,L,L, ,B,E, 
T,H,E,R,E 
E,0,R, ,Y,0,U 


如 果 CSV BS A BUA, IBA th 24k HF. Bl “csv. Error: iterable expected, not 

当然 ,在 读 取 作为 网 络 资源 的 CSV. 文件 时 ,除了 StringIO 以 外 ,还 可 以 先 下 载 到 
本 地 读 取 后 再 删除 (对 于 只 需要 读 取 一 次 的 情况 而 言 ) 。 另 外 ,XLS 作为 电子 表格 (使 
用 Office Excel 编辑 ) 也 常 作为 CSV. 的 蔡 代 文件 格式 出 现 , 处 理 XLS 可 以 使 用 
openpyxl 模块 ,其 设计 和 操作 与 CSV 类 似 。 


3.5 使 用 数据 库 


在 Python 中 使 用 数据 库 ( 主 要 是 关系 型 数据 库 ) 是 一 件 非常 方便 的 事情 ,因为 一 
般 都 能 找到 对 应 的 经 过 包装 的 API 库 ,这 些 库 的 存在 极 大 地 提高 了 用 户 编写 程序 的 
效率 。 一 般 而 言 ,用 户 只 需要 编写 SQL 语句 并 通过 相应 的 模块 API 执行 就 可 以 完成 
数据 库 的 读 写 了 。 


3.5.1 使 用 MySQL 


在 Python 中 进行 数据 库 操 作 需 要 通过 特定 的 程序 模块 (API) 来 实现 ,其 基本 好 
辑 是 首先 导 和 人 接口 模块 ,然后 通过 设置 数据 库 名 ,用 户 、 密 码 等 信息 来 连接 数据 库 , 接 
着 执行 数据 库 操作 (可 以 通过 直接 执行 SQL 语句 等 方式 ) ,最 后 关闭 与 数据 库 的 连 
接 。 由 于 MySQL 是 比较 简单 且 常 用 的 轻 量 型 数据 库 , 下 面 先 用 PyMySQL 模块 来 
介绍 在 Python 中 如 何 使 用 MySQL 。 

【提示 】 PyMySQL 是 Python 3. x 版 本 中 用 于 连接 MySQL 服务 器 的 一 个 库 ， 
在 Python 2. x 版 本 中 使 用 的 是 mysqldb。PyMySQL 是 基于 Python 开发 的 MySQL 
驱动 接口 ,在 Python 3. x 中 非常 常用 。 

首先 确保 在 本 地 计算 机 上 已 经 成 功 开启 了 MySQL 服务 (如 果 还 未 安装 
MySQL ,需要 先进 行 安装 ,可 以 在 “https://dev. mysql. com/downloads/installer/" F 
载 MySQL 官方 安装 程序 ) ,之 后 使 用 pip install pymysql 安装 该 模块 。 在 上 面 的 准 
备 完成 后 ,创建 一 个 名 为 “DB” 的 数据 库 和 一 个 名 为 “scraper1” 的 用 户 ,密码 设 为 
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“password”: 


CREATE DATABASE DB; 


GRANT ALL PRIVILEGES ON * . 'DB'TO 'scraper1'@ 'localhost' IDENTIFIED BY ‘password’; 


接着 创建 一 个 名 为 “user 


USE DB; 
CREATE TABLE 'users'( 


K: 


'id'int(11) NOT NULL AUTO INCREMENT, 
'email'varchar(255) COLLATE utf8 bin NOT NULL, 


'password' varchar(255) 
PRIMARY KEY ('id') 


COLLATE utf8 bin NOT NULL, 


) ENGINE = InnoDB DEFAULT CHARSET = utf8 COLLATE = utf8 bin 


AUTO INCREMENT = 1; 


现在 有 了 一 个 空 表 ,使 用 PyMySQL 进行 操作 , 见 例 3-2。 
【 例 3-2] 使 用 PyMySQL。 


import pymysql.cursors 
# Connect to the database 


connection = pymysql.connect(host = 'localhost', 


try: 


user = 'scraperl', 

password = ‘password’, 

db= DB', 

charset = 'utf8mb4', 

cursorclass = pymysql. cursors. DictCursor) 


with connection. cursor() as cursor: 


sql = "INSERT INTO 


'users'('email', 'password') VALUES (%s, % s)" 


cursor.execute(sql, ('example(Zexample.org', 'password')) 


connection. commit() 


with connection.cursor() as cursor: 


sql = "SELECT ‘id’, 


‘password’ FROM 'users' WHERE 'email' = %s" 


cursor.execute(sql, ( 'example(2? example. org', )) 
result = cursor. fetchone() 


print(result) 
finally: 
connection. close() 


在 这 段 代 码 中 ,首先 通过 pymysql. connect O 函数 进行 了 连接 配置 并 打开 了 数据 


库 连 接 ; 在 try 代码 块 中 打 姑 


F 了 当前 connection 的 cursor O (游标 ) ,并 通过 cursor 执 
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行 了 特定 的 SQL 插入 语句 ; commit() 方 法 将 提交 当前 的 操作 ,之 后 再 次 通过 cursor 
实现 对 刚才 插入 数据 的 查询 ; 最 后 在 finally 语句 块 中 关闭 了 当前 数据 库 连 接 。 
本 程序 的 输出 为 : 


('id': 1, 'password': 'password'] 

考虑 到 在 执行 SQL 语句 时 可 能 发 生 错误 ,可 以 将 程序 写成 下 面 的 形式 : 
try: 

Pe 


connection. rollback() 
finally: 


rollback() 方 法 将 回 滚 操作 。 
3.5.2 使 用 SQLite3 


SQLite3 是 一 种 小 巧 . 易 用 的 轻 量 型 关系 型 数据 库 系 统 , 在 Python 中 内 置 了 
sqlite3 模块 用 于 和 SQLite3 数据 库 进 行 交 互 , 首 先 使 用 PyCharm 创建 一 个 名 为 
“new-sqlite3” 的 SQLite3 数据 源 ,如 图 3-8 所 示 。 


ese Naw Data Source, 


Path: 


Driver: [WW Salite (Xerial) > 


Cancel 


3-8 d£ PyCharm 中 新 建 SQLite3 数据 源 


然后 使 用 sqlite3( 此 处 的 sqlite3 指 的 是 Python 中 的 模块 ) 进 行 建 表 操作 ,与 前 面 
对 MySQL 的 操作 类 似 : 


import sqlite3 

conn = sqlite3.connect('new- sqlite3') 
print("Opened database successfully") 
cur = conn. cursor() 

cur. execute( 
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"CREATE TABLE users 
(ID INT PRIMARY KEY NOT NULL, 


NAME TEXT NOT NULL, 
AGE INT NOT NULL, 
GENDER TEXT, 

SALARY REAL) ;''' 


) 

print("Table created successfully") 
conn, commit() 

conn. close() 


接着 在 users 表 中 插入 两 条 测试 数据 ,可 以 看 到 ,sqlite3 模块 与 pymysql 模块 的 
函数 名 非常 相像 


conn = sqlite3.connect('new - sqlite3') 
c = conn. cursor() 


c. execute( 
'''INSERT INTO users (id, name, age, gender, salary) 
VALUES (1, 'Mike', 32, 'Male', 20000);''") 
c. execute( 


'""INSERT INTO users (id, nane, age, gender, salary) 
VALUES (2, 'Julia', 25, 'Female', 15000);''') 
conn. commit() 
print("Records created successfully") 
conn. close() 


最 后 进行 读 取 操 作 ,确认 两 条 数据 已 经 被 插入: 


conn = sqlite3.connect( 'new- sqlite3') 
c= conn. cursor() 
cursor = c.execute(" SELECT id, name, salary FROM users") 
for row in cursor: 
print(row) 
conn. close() 
* 输出 
* (1, 'Mike', 20000.0) 
# (2, Julia', 15000.0) 


UPDATE, DELETE 等 操作 ,只 需要 更 改 对 应 的 SQL 语句 即 可 ,除了 SQL 语句 
变化 以 外 ,整体 的 使 用 方法 是 一 致 的 。 

需要 说 明 的 是 ,在 Python 中 通过 API 执行 SQL 语句 往往 需要 使 用 通配符 ,遗憾 
的 是 ,不 同 的 数据 库 类 型 使 用 的 通配符 可 能 并 不 一 样 , 比 如 在 SQLite3 中 使 用 *?”, 而 
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在 MySQL 中 使 用 *%s”。 虽然 看 上 去 像 是 对 SQL 语句 的 字符 串 进行 格式 化 (调用 
format() 方 法 ), 但 是 这 并 非 一 回 事 。 另 外 ,在 一 切 操作 完毕 后 不 要 忘 了 通过 close() 


3.5.3 使 用 SQLAlchemy 


有 时 候 ,为 了 进行 数据 库 操作 ,用 户 还 需要 一 个 比 底层 SQL 语句 更 高 级 的 接口 ， 
即 ORM( 对 象 关 系 映射 ) 接 口 。SQLAlchemy 这 
样 的 库 ( 见 图 3-9) 能 够 满足 这 样 的 需求 ,使 得 用 户 SQLAIchemy 
可 以 在 隐藏 底层 SQL 的 情况 下 实现 各 种 数据 库 
的 操作 。 所 谓 ORM ,大 概 的 意思 就 是 在 数据 表 与 
对 象 之 间 建 立 对 应 关系 ,这 样 用 户 得 以 通过 纯 Python 语句 来 表示 SQL 语句 ,从 而 进 
行 数据 库 操作 。 

除了 SQLAlchemy 以 外 ,Python 中 的 SQLObject 和 peewee 等 也 是 ORM 工具 。 
值得 一 提 的 是 ,虽然 SQLAlchemy 是 ORM 工具 ,但 也 支持 传统 的 基于 底层 SQL i8 
名 的 操作 。 

使 用 SQLAlchemy 进行 建 表 以 及 增 / 删 / 改 / 查 : 


图 3-9 SQLAlchemy 的 logo 


import pymysql 

from sqlalchemy. ext. declarative import declarative base 

from sqlalchemy import create engine, Column, Integer, String, func 
from sqlalchemy. orm import sessionmaker 


Pynysql.install as MySQLdb() # 如 果 没 有 这 个 语句 ,在 时 人 SOLAIchemy 时 可 能 会 报错 
Base = declarative base() 


class Test(Base) : 
__tablename _ = ‘Test’ 
id = Column('id', Integer, primary key= True, autoincrement = True) 
name = Column( ‘name', String(50)) 
age = Column('age', Integer) 


engine = create_engine( 
"mysql: //scraper1 : password@ localhost: 3306/DjangoBs" , 
) 


o 
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db ses = sessionmaker(bind = engine) 


session- db ses() 
Base. metadata.create all(engine) 


# 插 人 数据 

userl = Test(name = 'Mike', age = 16) 
user2 = Test(name = 'Linda', age = 31) 
user3 = Test(name = 'Milanda', age - 5) 
session. add(userl) 

session. add(user2) 

session. add(user3) 

session. commit() 


+ 修改 数据 ,使 用 merge( ) 方 法 (如 果 存 在 则 修改 数据 ,如 果 不 存 在 则 插 人 数据 ) 
userl.name = 'Bob' 
session.merge(userl) 


* 与 上 面 等 效 的 修改 方式 

session.query(Test).filter(Test.name == 'Bob').update({ 'name': 'Chloe']) 
# 删除 数据 

session. query(Test).filter(Test. id== 3).delete() + 删除 Milanda 

# 查询 数据 

users = session. query(Test) 

print([user.name for user in users]) 


E 按 条 件 查询 
user = session. query(Test). filter(Test. age < 20). first() 
print(user. name) 


E 在 结果 中 进行 统计 

user count = session. query(Test. name). order by(Test. name). count() 
avg age = session. query(func. avg(Test. age) ). first() 

sum age = session. query(func. sun(Test. age) ). first() 

print(user count) 

print(avg age) 

print(sum age) 


session.close() 


上 面 程序 的 输出 为 : 
['Chloe', 'Linda'] 
Chloe 

2 


(Decimal('23.5000'),) 
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(Decimal ( '47'),) 


除 此 之 外 ,在 SQLAlchemy 中 还 有 其 他 一 些 常 用 的 函数 方法 和 功能 ,对 于 更 多 
内 容 , 用 户 可 以 参考 SQLAlchemy 的 官方 文档 。 上 面 的 代码 演示 的 ORM 操作 实际 
上 为 数据 库 提供 了 更 高 级 的 封装 ,用 户 在 编写 类 似 的 程序 时 往往 能 获得 更 好 的 
体验 。 


3.5.4 使 用 Redis 


简单 地 说 ,Redis 是 一 个 开源 的 键 值 对 存储 数据 库 , 因 为 不 同 于 关系 型 数据 库 , 往 
往 也 被 称 为 数据 结构 服务 器 。Redis 是 基于 内 存 的 ,但 可 以 将 存储 在 内 存 的 键 值 对 数 
据 持久 化 到 硬盘 。 使 用 Redis 最 主要 的 好 处 就 在 于 可 以 避免 写 入 不 必要 的 临时 数 
据 , 也 免 去 了 对 临时 数据 进行 扫描 或 者 删除 的 麻烦 ,并 最 终 改 善 程序 的 性 能 。Redis 
可 以 存储 键 与 5 种 不 同 数据 结构 类 型 之 间 的 映射 ,分 别 是 STRING (字符 串 )、LIST 
GIR), SETRA), HASH ( 散 列 ) 和 ZSET( 有 序 集合 )。 为 了 在 Python 中 使 用 
Redis API, 用 户 可 以 安装 redis 模块 ,其 基本 用 法 如 下 : 


import redis 


red = redis. Redis(host = 'localhost', port = 6379, db= 0) 
red.set('name', 'Jackson') 


print(red. get( name')) # b'Jackson' 
print(red.keys()) # [b'name'] 
print(red. dbsize()) *1 


redis 模块 使 用 连接 池 来 管理 对 一 个 Redis Server 的 所 有 连接 ,这 样 就 避免 了 每 
次 建立 、 释 放 连 接 的 开销 。 默 认 每 个 Redis 实例 都 会 维护 一 个 自己 的 连接 池 。 用 户 
可 以 直接 建立 一 个 连接 池 ,这 样 可 以 实现 多 个 Redis 实例 共享 一 个 连接 池 : 

import redis 


* 使 用 连接 池 
pool = redis.ConnectionPool(host = 'localhost', port = 6379) 


r= redis.Redis(connection pool = pool) 
r.set('Shanghai', 'Pudong') 
print(r.get('Shanghai')) + b'Pudong' 
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通过 set() 方 法 设置 过 期 时 间 


import time 

r.set('Shenzhen', 'Luohu', ex - 5) * ex 表示 过 期 时 间 ( 按 秒 ) 
print(r. get( 'Shenzhen')) # b'Luohu' 

time. sleep(5) 

print(r.get( 'Shenzhen') ) # None 

批量 设置 与 读 取 : 

r.mset(Beijing = 'Haidian',Chengdu = 'Qingyang', Tianjin = 'Nankai') * 批量 


print(r.mget('Beijing', Chengdu', Tianjin')) # [b'Haidian', b'Qingyang', b'Nankai'] 


除了 上 面 这 些 最 基本 的 操作 以 外 ,Redis 还 提供 了 丰富 的 API 供 开发 者 与 Redis 
数据 库 交互 ,由 于 本 节 只 是 简单 地 介绍 一 下 Python 中 的 数据 库 , 这 里 对 此 就 不 獒 
述 了 。 


3.6 其 他 类 型 的 文档 


除了 一 些 常见 的 文件 格式 以 外 ,用 户 有 时 候 还 需要 处 理 一 些 相 对 比较 特殊 的 文 
档 类 型 文件 。 首 先 来 试 着 读 取 . docx 文件 (. doc 与 . docx 是 Microsoft Word 程序 的 
文档 格式 ) ,这 里 以 一 个 内 容 为 University of Pennsylvania 的 维基 百科 的 Word 文档 
为 例 ,图 3-10 是 该 文件 中 的 内 容 。 

如 果 要 读 取 这 样 的 . docx 文件 ,用 户 必 须 先 下 载 .安装 python-docx 模块 ,仍然 使 
用 pip 或 者 PyCharm IDE 进行 安装 。 之 后 通过 该 模块 进行 文件 操作 : 


import docx 
from docx import Document 
from pprint import pprint 


def getText( filename): 
doc = docx. Document ( filename ) 
fullText - [] 
for para in doc. paragraphs: 
fullText.append(para. text) 
return fullText 


pprint(getText( 'sample.docx')) 
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_ TUM MN : L 
University of Pennsylvaniae 


P 
The University of Pennsylvania (commonly known as Penn or UPegn) is a private Ivy 
League research university located in Philadelphia, Pennsylvania, United States. 
Incorporated as The Trustees of the University of Pennsylvania, Penn is one of 14 
founding members of the Association of American Universities and one of the nine 
colonial colleges chartered before the American Revolution.[4] & 

Benjamin Franklin, Penn's founder, advocated an educational program that focused 
as much on practical education for commerce and public service as on the classics 
and theology, though his proposed curriculum was never adopted. The university 
coat of arms features a dolphin on the red chief, adopted directly from the Franklin 
family's own coat of arms.[5] Penn was one of the first academic institutions to 
follow a multidisciplinary model pioneered by several European universities, 
concentrating multiple "faculties" (e.g, theology, classics, medicine) into one 
institution.[6] It was also home to many other educational innovations. The first 
school of medicine in North America (Perelman School of Medicine, 1765), the first 
collegiate business school (Wharton School of Business, 1881) and the first "student 
union" building and organization (Houston Hall, 1896)[7] were founded at Penn. With 
an endowment of $10.72 billion (2016), Penn had the seventh largest endowment of 
all colleges in the United States.[8] All of Penn's schools exhibit very high research 
activity.[9] In fiscal year 2015, Penn's academic research budget was $851 million, 
involving more than 4,300 faculty, 1,100 postdoctoral fellows and 5,500 support 
staff/graduate assistants.[2] 

Over its history, the university has also produced many distinguished alumni. These 
include 14 heads of state (including two U.S. Presidents]; 25 billionaires — the most of 
any university in the world at the undergraduate level; three United States Supreme 
Court justices; over 33 United States Senators, 42 United States Governors and 158 
members of the U.S. House of Representatives; 8 signers of the United States 
Declaration of Independence; and 12 signers of the United States 
Constitution.[10][11][12] In addition, some 30 Nobel laureates, 169 Guggenheim 
Fellows and 80 members of the American Academy of Arts and Sciences have been 
affiliated with Penn.[13] In addition, Penn has produced a significant number of 
Fortune 500 CEOs, in third place worldwide after Harvard and Stanford.[14][15] € 


图 3-10 ”Word 文档 的 内 容 


上 面 程序 的 输出 为 : 


"Benjamin Franklin, Penn's founder, advocated an educational program that " 
"focused as much on practical education for commerce and public service as on ' 
'the classics and theology, though his proposed curriculum was never adopted. ' 
"The university coat of arms features a dolphin on the red chief, adopted ' 
"directly from the Franklin family's own coat of arms.[5] Penn was one of the " 
'first academic institutions to follow a multidisciplinary model pioneered by ' 


除了 读 取 . docx 文档 以 外 ,python-docx 模块 还 支持 直接 创建 文档 : 
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import docx 
from docx import Document 


document = Document( ) 
document. add heading('This is Title’, 0) + 添加 标题 ,例如 “Doc Title (9 zyang" 


p= document.add paragraph('A plain paragraph ') + 添加 段落 ,例如 “Doc Paragraph (9 zyang" 
p.add run('bold text '). bold = True # 添加 格式 文字 
p.add run('italic text '). italic = True 


document.add heading('Heading 1', level- 1) 
document. add_paragraph( Intense quote', style = 'IntenseQuote') 


document. add_paragraph( # EFIK 
‘unordered list 1', style= 'ListBullet' 
) 
for i in range(3): 
document.add paragraph( # 有 序列 表 
‘ordered list {}'.format(i), style= 'ListNumber' 
) 


document.add picture('cat.jpeg') # 添加 图 片 


table = document. add_table(rows = 1, cols = 2) # 设置 表 
hdr_cells = table.rows[0].cells 
hdr_cells[0]. text = 'name' E 设置 列 名 
hdr_cells[1]. text = 'gender' 
d= [dict(name = 'Bob', gender = 'male'),dict(name = 'Linda', gender = 'female')] 
for item in d: # 添加 表 中 的 内 容 

row cells = table. add_row().cells 

row cells[0].text = str(item[ 'name']) 

row_cells[1]. text = str(item[ 'gender']) 


document.add page break() # 添加 分 页 


document. save( 'demol. docx') + 保存 到 路 径 


使 用 Office Word 软件 打开 demol. docx, 效 果 如 图 3-11 所 示 。 

BRT. doc 文件 以 外 ,在 采集 网 络 信息 时 用 户 还 可 能 会 遇 到 处 理 PDF 文件 的 需求 
(在 某 些 场合 尤其 常见 ,例如 下 载 slide 或 者 paper 时 ) 。 在 Python 中 有 对 应 的 库 来 操 
fE PDF 文件, 这 里 使 用 PyPDF2 来 解决 这 个 需求 (使 用 pip install PyPDF2 即 可 
安装 )。 
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el L 
This is Title 


Aplain paragraph bold text italic text 


Heading 1 


Intense quote 


e unordered list 1 


|. ordered list 0 
ordered list 1 
l ordered list 2 


N 


3. 


name gender 
Bob male 
Linda female 


图 3-11 新 建文 档 的 内 容 
首先 可 以 通过 浏览 器 的 打印 页 面 方式 生成 一 个 内 容 为 网 页 的 PDF 文件 ,此 处 将 
"https://pythonhosted. org/PyPDF2/PdfFileMerger. html” 这 个 地 址 的 网 页 内 容 保 
存在 raw. pdf 中 ,如 图 3-12 所 示 。 
接着 使 用 PyPDF2 进行 简单 的 PDF 页 码 粘 贴 与 PDF 合并 操作 : 
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The pdfFileMerger Class 


class eyror2 PAfPileMerger(strict=True) 
Initializes a PdfFileMerger object. PdfFileMerger merges multiple PDFs into a single PDF. It can 
concatenate, slice, insert, or any combination of the above. 
See the functions sss ) (OF sppsad4)) and wise1) for usage information. 


Parameters: strict (booh - Determines whether user should be warned of all problems and also 
Causes some correctable problems to be fatal. Defaults to true. 


Parameters: + titie (st) - Title to use for this bookmark. 
* pagenum (int) - Page number this bookmark will point to. 
* parent - A reference to a parent bookmark to create nested bookmarks. 


addMetadatalinfos) 
‘Add custom metadata to the output. 


Parameters: infos (dict - a Python dictionary where each key is a field and each value is your. 
new metadata. Example: (a /iele': u'my title) 


addNamedDest i nat i on (titie. pagenum) 
Add a destination to the output. 


Parameters: + title lo- Title to use 
* pagenum (int - Page number this destination points at. 


append (fiieaty, bookmark -None, pages - None, import bookmarks = True) 
Identical to the «s. method, but assumes you want to concatenate all pages onto the end 
Of the file instead of specifying a position. 
Parameters: + fileobj - A File Object or an object that supports the standard read and seek 
methods similar to a File Object. Could also be a string representing a path to 
a POF file. 
* bookmark (st - Optionally, you may specify a bookmark to be applied at the 
beginning of the included fie by supplying the text of the bookmark. 
* pages - can be a Page Range ora (start, stopi, stepi) tuple to merge 
‘only the specified range of pages from the source document into the output 
document. 


* import bookmarks (bool - You may prevent the source document's 
bookmarks from being imported by specifying this as raise. 


close) 
‘Shuts all le descriptors (input and output) and clears all memory usage. 


merge (position, fileobj, bookmark «None, pages «None, import bookmarks True) 
Merges the pages from the given file into the output file at the specified page number. 
Parameters: + position (int - The page number to insert this file. File will be inserted after 
the given number. 
* flleobj - A File Object or an object that supports the standard read and seek 
methods similar to a File Object. Could also be a string representing a path to 
a POF fil. 
* bookmark (str - Optionally. you may specify a bookmark to be applied at the 
beginning of the included file by supplying the text of the bookmark. 
* pages - can be a Page Kano or a (start, stopl, step) tupie to merge 
‘only the specified range of pages from the source document into the output 
ses py tented org PY FDE PAT Merger Smt D 
大 | 
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document. 

* import bookmarks (boo) - You may prevent the source document's 
bookmarks from being imported by specifying this as False. 


setPageLayout (uyou) 
Set the page layout 
Parameters: layout (str) - The page layout to be used 
Valid layouts are: 


/NoLayout Layout explicitly not specified 
{singlerese — Show one page 1 a time 


/ocol mnRi ght 


Show pages In two columns, odd-numbered pages on the right. 
lToPageLeft — Show two pages at a time, odd-numbered pages on the left 
/"woPageRight — Show two pages at a time, odd-numbered pages on the right 


setPageModelmode) 
Set the page mode. 


3-12 raw. pdf 的 内 容 
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from PyPDF2 import PdfFileReader, PdfFileWriter 
raw pdf = 'raw.pdf' 
out pdf = ‘out. pdf" 


# PdfFileReader Xf # 
pdf input = PdfFileReader(open(raw pdf, 'rb')) 


page num- pdf input.getNumPages() # 页 数 ,输出 2 
print(page num) 
print(pdf input.getDocumentInfo()) # 文档 信息 


# 输出 {'/Creator': 'Mozilla/5.0 (Macintosh; Intel Mac OS X10 13 3 ) AppleWebKit/537.36 
(KHTML, like Gecko) 

# — Chrome/65.0.3325.181 Safari/537.36', '/Producer': 'Skia/PDF m65', '/CreationDate': 

# "D:20180425142439 + 00'00", '/ModDate': "D:20180425142439 + 00 00") 


* 返回 一 个 PageObject 
pages from raw- [pdf input.getPage(i) for i in range(2)] 
# raw. pdf 共 两 页 ,这 里 取出 这 两 页 


# 获取 一 个 PdfFileWriter Xf$& 
pdf output = PdfFileWriter() 
# 将 一 个 PageObject 添加 到 PdfFileWriter 中 
for page in pages from raw: 
pdf output. addPage( page) 
# 输出 到 文件 中 
pdf output.write(open(out pdf, 'wb')) 


from PyPDF2 import PdfFileMerger, PdfFileReader 

# 合并 两 个 EDF 文件 

merger = PdfFileMerger() 
merger.append(PdfFileReader(open( ‘out. pdf', 'rb'))) 
merger.append(PdfFileReader(open( 'raw. pdf', 'rb'))) 
merger.write("output merge. pdf") 


最 后 打开 output. merge. pdf, 发 现 已 经 成 功 地 合并 了 out. pdf 与 raw. pdf. H F 
out. pdf 是 raw. pdf 中 两 页 的 完全 复制 ,所 以 最 终 的 效果 是 raw. pdf 的 两 页 内 容 的 重 
复 ( 共 4 页 , 见 图 3-13). 


1 日 3 4 


图 3-13 output merge. pdf 文件 的 内 容 
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3.7 本 章 小 结 


在 本 章 中 主要 讨论 了 Python 与 各 种 文件 的 一 些 操作 ,首先 介绍 了 最 基本 的 文件 
打开 与 读 写 操作 ,之 后 通过 图 片 文 件 以 及 CSV、DOCX、PDF 等 格式 的 文件 展示 了 
Python 中 文件 处 理 的 丰富 功能 。 本 章 还 系统 性 地 介绍 了 一 些 数 据 库 交互 的 方法 ,其 
中 有 关 MySQL 和 Redis 的 部 分 对 疏 虫 程序 的 编写 尤为 重要 。 
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JavaScript 与 动态 内 容 


如 果 用 户 利用 requests 库 和 BeautifulSoup 来 采集 一 些 大 型 电 商 网 站 的 页 面 ,可 
能 会 发 现 一 个 令 人 疑惑 的 现象 , 那 就 是 对 于 同一 个 URL、 同 一 个 页 面 ,用 户 抓 取 到 的 
内 容 和 在 浏览 器 中 看 到 的 内 容 有 所 不 同 。 比 如 用 户 有 的 时 候 去 寻找 某 一 个 < div > 元 
素 , 却 发 现 Python 程序 报 出 异常 ,查看 requests. get() 方 法 的 响应 数据 也 没有 看 到 想 
要 的 元 素 信息 。 这 其 实 代 表 了 网 页 数据 抓 取 的 一 个 关键 问题 ,用 户 通过 程序 获取 到 
的 HTTP 响应 内 容 都 是 原始 的 HTML 数据 ,但 浏览 器 中 的 页 面 其 实 是 在 HTML 的 
基础 上 经 过 JavaScript 进一步 加 工 和 处 理 后 生成 的 效果 。 比 如 淘宝 的 商品 评论 就 是 
通过 JavaScript 获取 JSON 数据 ,然后 “嵌入 ?到 原始 HTML 中 并 呈现 给 用 户 。 这 种 
在 页 面 中 使 用 JavaScript 的 网 页 对 于 20 世纪 90 年 代 的 Web 界面 而 言 几乎 是 天 方 夜 
谭 , 但 在 今天 ,以 AJAX 技术 (Asynchronous JavaScript and XML, 异 步 JavaScript 与 
XML) 为 代表 的 结合 JavaScript, CSS, HTML 等 语言 的 网 页 开发 技术 已 经 成 为 绝对 
的 主流 。 

为 了 避免 给 每 一 份 要 呈现 的 网 页 内 容 都 准备 一 个 HTML, 网 站 开发 者 们 开始 考 
虑 对 网 页 的 呈现 方式 进行 变革 。 在 JavaScript 问世 之 初 ,Google 公司 的 Gmail 邮箱 
网 站 是 第 一 个 大 规模 使 用 JavaScript 加 载 网 页 数据 的 产品 ,在 此 之 前 ,用 户 为 了 获取 
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下 一 页 的 网 页 信息 ,需要 访问 新 的 地 址 并 重新 加 载 整个 页 面 , 而 新 的 Gmail 做 出 了 更 
好 的 方案 ,用 户 只 需要 单 击 “下 一 页 ”按钮 ,网 页 (实际 上 是 浏览 器 ) 就 会 根据 用 户 交互 
对 下 一 页 数据 进行 加 载 , 且 这 个 过 程 并 不 需要 对 整个 页 面 (HTML) 的 刷新 , 换 句 话 
W JavaScript 使 得 网 页 可 以 灵活 地 加 载 其 中 一 部 分 数据 。 后 来 , 随 着 这 种 设计 的 流 
行 ,“AJAX” 这 个 词语 成 为 一 个 “术语 ”,Gmail 作为 第 一 个 大 规模 使 用 这 种 模式 的 商 
业 化 网 站 成 功 地 引领 了 被 称 为 “Web 2.0” 的 潮流 。 


4.1 JavaScript 与 AJAX 技术 


4.1.1 JavaScript 语言 


JavaScript 一 般 被 定义 为 一 种 * 面 向 对 象 . 动 态 类 型 的 解释 性 语言 ”, 最 初 由 
Netscape( 网 景 ) 公 司 推出 ,目的 是 作为 新 一 代 浏览 器 的 脚本 语言 支持 。 换 句 话 说 ,不 
同 于 PHP 或 者 ASP. NET, JavaScript 不 是 为 “网 站 服务 器 ”提供 的 语言 ,而 是 为 “用 
户 浏览 器 ?提供 的 语言 。 从 客户 端 -服务 端的 角度 来 说 ,JavaScript 无 疑 是 一 种 “客户 
端 " 语 言 。 但 是 由 于 JavaScript 受到 业界 和 用 户 的 强烈 欢迎 ,加 之 开发 者 社区 的 活 
EK, HÀI JavaScript 已 经 开始 朝 着 更 为 综合 的 方向 发 展 , 随 着 V8 引擎 (可 以 提高 
JavaScript 的 解释 执行 效率 ) 和 Node. js 等 新 潮流 的 出 现 ,JavaScript 甚至 已 经 开始 涉 
ERS Mi”, 在 TIOBE 排名 (一 个 针对 各 类 程序 设计 语言 受 欢迎 度 的 比较 ) 上 
JavaScript 稳 居 前 10 ,并 与 PHP、Python、C# 等 分 庭 抗 礼 。 有 一 种 说 法 是 ,对 于 今天 
任何 一 个 正式 的 网 站 页 面 而 言 ,HTML 决定 了 网 页 的 基本 内 容 , CSS ( Cascading 
Style Sheets, 层 释 样 式 表 ) 描 述 了 网 页 的 样式 布局 ,JavaScript 则 控制 了 用 户 与 网 页 
的 交互 。 

【提示 】 JavaScript 的 名 字 使 得 很 多 人 将 其 与 Java 语言 联系 起 来 ,认为 它 是 
Java 的 某 种 派生 语言 ,但 实际 上 JavaScript 在 设计 原则 上 更 多 地 受到 Scheme( 一 种 函 
数 式 编程 语言 ) 和 C 语言 的 影响 ,除了 变量 类 型 和 命名 规范 等 细节 以 外 ,JavaScript 与 
Java 的 关系 并 不 大 。Netscape 公司 最 初 将 其 命名 为 “LiveScript”, 但 由 于 当时 正 与 
Sun 公司 合作 ,加 上 Java 语言 所 获得 的 巨大 成 功 , 为 了 “ 蹄 热点 ”", 遂 将 名 字 改 为 


| 第 4 章 ”JavaScript 与 动态 内 容 (3) 


“JavaScript”. JavaScript 推出 后 受到 了 业界 的 一 致 肯定 ,对 JavaScript 的 支持 也 成 为 
新 世纪 后 出 现 的 现代 浏览 器 的 基本 要 求 。 浏 览 器 端的 脚本 语言 还 包括 用 于 Flash 动 
画 的 ActionScript 等 。 

为 了 在 网 页 中 使 用 JavaScript, 开 发 者 一 般 会 把 JavaScript 脚本 程序 写 在 HTML 
的 < script > 标签 中 。 在 HTML 语法 里 ,< script > 标签 用 于 定义 客户 端 脚本 ,如 果 需 
要 引用 外 部 脚本 文件 ,可 以 在 src 属性 中 设置 其 地 址 ,如 图 4-1 所 示 。 


v«script- 
Do(function() { 
var app.qr = $('.app-qr'); 
app qr.hover(function() { 
app. qr.addClass('open'); 
), function() { 
ns removeClass( 'open') ; 


ns 


</script> 
</div> 
><div id="anony-sns" class="section">.</div> 
: “section">.</div> 
ection" >..</div> 


ction" >.</div> 

'anony-music" class="section">..</div> 

><div id-"anony-market" class="section">.</div> 

><div id-"anony-events" class="section">.</div> 

Y<div class-"wrapper"» 

anonymous home page bottom" class="extra"'></div> 
</div> 


<script type-"text/javascript" src="https://img3.doubanio. com/f/shire/72ced6d./js/ 
”async="true'>s/script> 一 


图 4-1 豆瓣 首页 的 网 页 源 代 码 中 的 < script > 元 素 


JavaScript 在 语法 结构 上 比较 类 似 C++ 等 面向 对 象 的 语言 ,循环 语句 .条 件 语句 
等 与 Python 中 的 写法 有 较 大 的 差异 ,但 其 弱 类 型 特点 会 更 符合 Python 开发 者 的 使 
用 习惯 。 一 段 简单 的 JavaScript 脚本 程序 如 下 : 

[B 4-1] JavaScript 示例 ,计算 a 十 b 和 axb。 


function add(a,b) { 

var sum=a + b; 

console.log('%d + %d equals to %d',a,b,sum); 
} 
function mut(a,b) { 

var prod=a * b; 

console. log('%d * %d equals to &d',a,b, prod); 


这 里 使 用 Chrome 开发 者 模式 的 Console T.H. (Console 一 般 翻 译 为 “控制 台 ”) ， 
输入 并 执行 这 个 程序 ,就 可 以 看 到 Console 对 应 的 输出 ,如 图 4-2 所 示 。 


B 
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function add(a,b) { 
var sum = a + b; 
console. log( '%d + %d equals to ¥d',a,b, sum); 
© undefined 
add(1,2) 
1+ 2 equals to 3 
© undefined 


function mut(a,b) { 
var prod = a * b; 
console. log( '%d * %d equals to &d',a,b,prod); 
« undefined 
mut(3,4) 
3 * 4 equals to 12 
« undefined 


图 4-2 f£ Chrome Console 中 执行 的 结果 
下 面 通过 例子 来 展示 JavaScript 的 基本 概念 和 语法 。 
【 例 4-2] JavaScript 程序 ,演示 JavaScript 的 基本 内 容 。 


var a=1; // 变量 的 声明 与 赋值 
// 变量 都 用 var 关键 字 定 义 
var myFunction = function(argl) ( // 注意 这 个 赋值 语句 ,在 JavaScript 中 函数 和 变量 本 质 上 
// 是 一 样 的 
argl += 1; 
return argl; 
) 
var myAnotherFunction - function(f,a) ( // 函数 也 可 以 作为 男 一 个 函数 的 参数 传人 
return f(a); 
) 
console. log(myAnotherFunction(myFunction, 2)) 
// 条 件 语句 
if (a>0) { 
a-=1; 
} else if (a==0) { 
a-=2; 
} else { 
at=2; 
} 
// 数组 
arr= [1,2,3]; 
console. log(arr[1]); 
// 对 象 
myAnimal = { 
name: "Bob", 
species: "Tiger", 
gender: "Male", 
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isAlive: true, 
isMammal: true, 
} 
console. log(myAnimal. gender); // 访问 对 象 的 属性 
// 匿名 函数 
myFunctionOp = function(f, a) { 
return f(a); 
} 
res = myFunctionOp( // 直接 在 参数 位 置 写 上 一 个 函数 
function(a) { 
returna * 2; 
}, 
4) 
// 可 以 联想 lambda 表达 式 来 理解 
console.log(res); // 结 果 为 8 


除了 对 JavaScript 语法 了 解 以 外 ,为 了 更 好 地 分 析 和 抓 取 网 页 ,用 户 还 需要 对 目 
前 广 为 流 行 的 JavaScript 第 三 方 库 有 简单 的 认识 ,包括 jQuery、Prototype、React 等 在 
内 的 JavaScript 库 一 般 会 提供 丰富 的 函数 和 设计 完善 的 使 用 方法 。 

如 果 用 户 要 使 用 jQuery, 可 以 访问 “http://jquery. com/download/”, 并 将 
jQuery 源 代码 下 载 到 本 地 ,最 后 在 HTML 中 引用 : 

<head> 

</head> 

<body> 


< script src = "jquery - 1.10. 2. nin. js"></script > 
</body> 


用 户 也 可 以 使 用 另 一 种 不 必 在 本 地 保存 JS 文件 的 方法 ,即使 用 CDN( 见 下 方 的 
代码 )。Google、 百 度 、 新 浪 等 大 型 互联 网 公司 的 网 站 上 都 会 提供 常见 JavaScript 库 
的 CDN。 如 果 网 页 使 用 CDN, 当 用 户 向 网 站 服务 器 请 求 文件 时 ,CDN 会 从 离 用 户 最 
近 的 服务 器 上 返回 响应 ,这 在 一 定 程度 上 可 以 提高 加 载 速度 。 

<head> 

</head> 

<body> 

< script src = "https://cdn. jsdelivr. net/npm/jquery @ 3. 2. 1/dist/jquery. min. js"> 


</script> 
</body> 


GER) 编写 过 网 页 的 人 对 CDN 一 词 不 会 陌生 ,CDN 即 Content Delivery 
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Network( 内 容 分 发 网 络 ) ,一 般 用 于 存放 供 人 们 共享 使 用 的 代码 。Google 的 API AR 
务 就 提供 了 存放 jQuery 等 JavaScript 库 的 CDN。 这 是 比较 狭义 的 CDN 含义 ,实际 
上 CDN 的 用 途 不 止 “支持 JavaScript 脚本 ”一 项 。 


4.1.2 AJAX 


AJAX 技术 与 其 说 是 一 种 “技术 ”, 不 如 说 是 一 种 “方案 "。 如 上 文 所 述 ,在 网 页 中 
使 用 JavaScript 加 载 页 面 中 的 数据 都 可 以 看 成 AJAX 技术 。AJAX 技术 改变 了 过 去 
用 户 浏 览 网 站 时 一 个 请 求 对 应 一 个 页 面 的 模式 ,允许 浏览 器 通过 异步 请 求 来 获取 数 
据 , 从 而 使 得 一 个 页 面 能 够 呈现 并 容纳 更 多 的 内 容 , 同 时 也 就 意味 着 更 多 的 功能 。 只 
要 用 户 使 用 的 是 主流 的 浏览 器 ,同时 允许 浏览 器 执行 JavaScript, 用 户 就 能 够 享受 网 
站 在 网 页 中 的 AJAX 内 容 。 

AJAX 技术 在 逐渐 流行 的 同时 也 面临 着 一 些 批评 和 意见 ,由 于 JavaScript 本 身 是 
作为 客户 端 脚本 语言 在 浏览 器 的 基础 上 执行 ,因此 浏览 器 的 兼容 性 成 为 不 可 忽视 的 
问题 ; 另外 ,由 于 JavaScript 在 某 种 程度 上 实现 了 业务 逻辑 的 分 离 ( 此 前 的 业务 巡 辑 
统一 由 服务 器 端 实现 ) ,因此 在 代码 维护 上 也 存在 一 些 效 率 问题 。 但 总 体 而 言 ,AJAX 
技术 已 经 成 为 现代 网 站 技术 中 的 中 流 碟 柱 ,受到 了 用 户 的 广泛 欢迎 。AJAX 目前 的 
使 用 场景 十 分 广泛 ,很 多 时 候 普通 用 户 甚至 察觉 不 到 网 页 正在 使 用 AJAX BOR 

这 里 以 知 乎 的 首页 信息 流 为 例 ( 见 图 4-30 ,与 用 户 的 主要 交互 方式 就 是 用 户 通过 
下 拉 页 面 (具体 操作 可 滚动 鼠标 滚轮 , 拖 动 滚动 条 等 ) 查 看 更 多 动态 ,而 且 在 一 部 分 动 
态 ( 对 于 知 乎 而 言 包括 被 关注 用 户 的 点 赞 和 回答 等 ) 展 示 完 毕 后 会 显示 一 段 加 载 动画 
并 呈现 后 续 的 动态 内 容 。 在 这 个 过 程 中 页 面 动画 其 实 只 是 “ 障 眼 法 ”, 正 是 JavaScript 
脚本 请 求 了 服务 器 发 送 相 关 数 据 ,并 最 终 加 载 到 页 面 中 。 在 这 个 过 程 中 页 面 显然 没 
有 进行 全 部 刷新 ,而 是 只 刷新 了 一 部 分 ,通过 这 种 异步 加 载 的 方式 完成 了 对 新 的 内 容 
的 获取 和 呈现 ,这 个 过 程 就 是 典型 的 AJAX 应 用 。 

比较 尴 众 的 是 ,编写 的 肘 虫 一 般 不 能 执行 包括 “加载 新 内 容 ? 或 者 “ 跳 到 下 一 页 ” 
等 功能 在 内 的 各 类 写 在 网 页 中 的 JavaScript 代码 。 如 本 节 开 头 所 述 , 疏 虫 会 获取 网 
站 的 原始 HTML 页 面 ,由 于 疏 虫 没有 浏览 器 那样 的 执行 JavaScript 脚本 的 能 力 , 因 
此 也 就 不 会 为 网 页 运行 JavaScript, 最 终 疏 取 到 的 结果 就 会 和 浏览 器 里 显示 的 结果 有 
所 差异 ,在 很 多 时 候 便 不 能 直接 获取 到 想 要 的 关键 信息 。 为 了 解决 这 个 尴 众 问 题 , 基 
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图 4-3 知 乎 首页 的 动态 刷新 
于 Python 编写 的 息 虫 程序 可 以 做 出 两 种 改进 : 一 种 是 通过 分 析 AJAX 内 容 ( 需 要 开 
发 者 手动 观察 和 实验 ) ,观察 其 请 求 目 标 、 请 求 内 容 和 请 求 的 参数 等 信息 ,编写 程序 来 
模拟 这 样 的 JavaScript 请 求 ,最终 获 取信 息 ( 这 个 过 程 也 可 以 叫 * 逆 向 工程 ”); 另外 一 
种 方式 则 比较 取 巧 , 那 就 是 直接 模拟 出 浏览 器 环境 ,使 得 程序 得 以 通过 浏览 器 模拟 工 
具 “ 移 花 接 木 ”, 最 终 通 过 浏览 器 泻 染 后 的 页 面 获取 信息 。 这 两 种 方式 的 选择 与 
JavaScript 在 网 页 中 的 具体 使 用 方法 有 关 , 相 应 内 容 将 在 下 一 节 中 具体 讨论 。 


4.2 抓 取 AJAX 数据 


4.2.1 分 析 数 据 


网 页 使 用 JavaScript 的 第 一 种 模式 就 是 获取 AJAX 数据 并 在 网 页 中 加 载 ,这 实 
际 上 是 一 个 “嵌入 ?的 过 程 , 借 助 这 种 方式 不 需要 一 个 单独 的 页 面 请 求 就 可 以 加 载 新 
的 数据 ,这 无 论 是 对 网 站 开发 者 还 是 对 浏览 网 站 的 用 户 都 能 有 更 好 的 体验 。 这 个 概 
念 与 “动态 HTML? 非 常 接近 ,动态 HTML 一 般 指 通过 客户 端 语 言 来 动态 改变 网 页 
HTML 元 素 的 方式 。 很 显然 ,这 里 的 “客户 端 语 言 ? 几 乎 是 “JavaSceript” 的 同义词 ,而 
“改变 网 页 HTML 元 素 ” 本 身 就 意味 着 对 新 请 求 数据 的 加 载 。 读 者 在 4. 1 节 末 看 到 
的 知 乎 首页 的 例子 实际 上 就 是 一 种 非常 典型 且 综 合 的 动态 HTML ,不 仅 网 页 中 的 文 
本 数据 是 通过 JavaScript 加 载 的 ( 即 AJAX) ,而 且 网 页 中 的 各 类 元 素 ( 例 如 < div > 或 
<p > 元 素 ) 也 是 通过 JavaScript 代码 生成 并 最 终 呈 现 给 用 户 的 。 在 本 小 节 首 先 考 虑 
最 单纯 的 AJAX 数据 抓 取 , 暂 时 不 考虑 那些 复杂 的 页 面 变化 (直观 地 说 ,就 是 各 类 动 
画 加 载 效 果 ), 可 以 以 携程 网 的 酒店 详情 页 面 为 例 完成 一 次 对 AJAX 数据 的 逆向 
工程 。 
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具体 地 说 ,网 页 中 的 AJAX 过 程 一 般 可 以 简单 地 理解 为 "发送 请 求 "一 “获得 数 
据 ”>“ 显 示 元 素 ” 的 流程 。 在 第 一 步 “发 送 请 求 " 时 ,客户 端 主要 借助 了 一 个 所 谓 的 
XMLHttpRequest 对 象 。 使 用 Python 发 送 请 求 时 的 程序 语句 是 这 样 的 : 

import requests 


res = requests. get('url') 
# 做 点 事情 


浏览 器 使 用 XMLHttpRequest 发 送 请 求 也 是 类 似 的 , 它 使 用 的 是 JavaScript ifi 
言 而 不 是 Python 语言 。 对 于 AJAX 而 言 , 从 “发 送 请 求 ”到 “获得 数据 ”的 过 程 当然 不 
止 两 行 代码 这 么 简单 ,最 终 浏览 器 在 XMLHttpRequest 的 responseText 属性 中 获取 
响应 内 容 。 常 见 的 响应 内 容 包 括 HTML 文本 、JSON 数据 等 ( 见 图 4-4) 。 


mm c EMEN D CSCS ea ae 


图 4-4 通过 开发 者 工具 查看 JSON 数据 (图 中 网 页 为 苏宁 易 购 ) 


【提示 】 对 XMLHttpRequest 的 定义 可 以 参考 Mozilla( 一 个 脱胎 于 Netscape 
公司 的 软件 社区 组 织 ,旗下 软件 包括 著名 的 Firefox 浏览 器 ) 给 出 的 说 明 : 
XMLHttpRequest 是 一 个 API, 它 为 客户 端 提 供 了 在 客户 端 和 服务 器 之 间 传 输 数据 
的 功能 。 它 提供 了 一 个 通过 URL 来 获取 数据 的 简单 方式 ,并 且 不 会 使 整个 页 面 
刷新 。 

之 后 ,JavaScript 将 根据 获取 到 的 响应 内 容 来 改变 网 页 HTML 内 容 , 使 得 “网 页 
源 代码 "真正 变 为 用 户 在 开发 者 模式 中 看 到 的 实时 网 页 HTML 代码 。 在 这 个 “显示 
元 素 ” 的 过 程 中 ,第 一 步 就 是 JavaScript 进行 DOM 操作 ( 即 改变 网 页 文档 的 操作 )。 
之 后 浏览 器 完成 对 新 加 载 内 容 的 泻 染 ,这 样 用 户 就 看 到 了 最 终 的 网 页 效果 。 

DET] 文档 对 象 模型 (DOM) 是 HTML 和 XML 文档 的 编程 接口 。DOM 将 网 
页 文档 解析 为 一 个 由 结 点 和 对 象 (包含 属性 和 方法 的 对 象 ) 组 成 的 数据 结构 。 最 直接 


| #4 JavaScript 与 动态 内 容 (119 
o 


的 理解 是 ,DOM 是 Web 页 面 的 面向 对 象 化 ,便于 JavaScript 等 语言 对 页 面 中 的 内 容 
(元 素 ) 进 行 更 改 、 增 加 等 操作 。“ 泻 染 ?” 这 个 词 则 没有 一 个 很 严格 的 定义 ,可 以 理解 为 
浏览 器 把 那些 只 有 程序 员 才 会 留心 的 代码 和 数据 * 变 为 ?普通 用 户 所 看 到 的 网 页 画面 
的 过 程 。 

根据 上 面 的 分 析 , 用 户 很 容易 想到 ,为 了 抓 取 这 样 的 网 页 内 容 , 不 必 着 眼 于 网 页 
这 个 “最 终 产物 ”, 因 为 “最 终 产物 ”也 是 经 过 加 工 的 结果 。 如 果 用 户 对 那些 AJAX Be 
据 ( 比 如 商品 的 客户 评论 ) 感 兴趣 ,并 且 暂 时 不 需要 页 面 中 的 其 他 一 些 数 据 ( 比 如 商品 
的 名 称 标题 ) ,那么 可 以 将 注意 力 完 全 集中 在 AJAX 请 求 上 ,对 于 很 多 简单 的 AJAX 
数据 而 言 ,只 要 知道 了 AJAX 请 求 的 URL 地 址 , 抓 取 就 已 经 成 功 了 一 半 。 幸 运 的 是 ， 
虽然 AJAX 数据 可 能 会 进行 加 密 , 有 一 些 AJAX 请 求 的 数据 格式 也 可 能 非常 复杂 (万 
其 是 一 些 大 型 互联 网 公司 旗下 网 站 的 页 面 ) ,但 很 多 网 页 中 的 AJAX 内 容 还 是 不 难 分 
析 的 。 
这 里 访问 携程 网 的 一 个 酒店 页 面 ( 见 图 4-50 ,打开 开发 者 工具 并 进入 Network 选 
项 卡 ,用 户 能 够 看 到 很 多 条 记录 ,这 些 记录 记载 了 页 面 加 载 过 程 中 浏览 器 和 服务 器 之 
间 的 各 个 交互 。 如 果 选 中 XHR 这 个 选项 ,用 户 便 能 过 滤 掉 其 他 类 型 的 数据 交互 ,只 
显示 XHR 请 求 ( 即 XMLHttpRequest) 。 
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图 4-5 ”携程 网 的 酒店 详情 页 面 


由 此 得 到 了 网 页 中 的 AJAX 数据 请 求 , 对 于 酒店 页 面 而 言 , 把 抓 取 目标 设 定 为 获 
取 其 "常见 问答 ”信息 ( 见 图 4-6), 这 个 内 容 显然 是 AJAX 加 载 的 数据 。 在 Network 
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中 ,用户 也 能 看 到 “AjaxHotelFaqLoad. aspx” 这 条 记录 ,选中 记录 后 查看 “Preview” 就 
能 够 看 到 请 求 到 的 数据 详情 (实际 上 查看 响应 数据 应 该 在 “Response” 中 , 但 
“Preview” 会 将 数据 以 比较 易于 观察 的 格式 来 显示 ,便于 开发 者 进行 预览 ) 
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图 4-6 在 XHR 中 查看 携程 网 酒店 页 面 的 “常见 问答 ”信息 

在 Preview 中 用 户 看 到 的 是 浏览 器 “解析 ”( 这 个 词 一 般 是 由 parse 翻译 而 来 ) 得 
到 的 数据 ,在 Response 中 查看 的 原始 数据 ( 见 图 4-7) 则 不 易 阅 读 , 但 本 质 是 一 致 的 。 
JavaScript 获取 到 这 些 JSON 数据 后 ,根据 对 应 的 页 面 泻 染 方法 进行 泻 染 ,这 些 数据 
就 呈现 在 了 最 终 的 网 页 之 上 。 

为 了 抓 取 这 些 数 据 , 用 户 必须 研究 “Headers” 中 的 那些 关键 信息 。 在 Headers 选 
项 中 ,用 户 可 以 查看 这 次 XHR 请 求 的 各 种 详细 信息 ,其 中 比较 重要 的 包括 Request 
URL( 请 求 的 URL 地 址 ) 和 Form Data( 表 单数 据 )。 可 以 看 到 , Request URL 为 
"http: //hotels. ctrip. com/Domestic/tool/ AjaxHotelFaqLoad. aspx” ,之 后 单 击 Form 
Data 中 的 View Source. I VA 3k f$ # ifi] F FF HA“ hotelid = 4738718-currentPage — 1". 
如 果 用 户 对 后 端 开发 比较 熟悉 BE 2: B] A Hp a x" JE RE Bs E SE Je Ja 2 AE 
函数 传人 的 具体 参数 名 和 参数 值 。 这 是 一 个 表单 数据 ,因此 可 以 使 用 POST 表单 得 
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图 4-7 查看 Response 信息 


到 返回 的 JSON。 用 户 还 可 以 使 用 另外 一 种 方式 验证 一 下 , 那 就 是 将 POST 转化 为 
GET。 实 际 上 ,在 这 种 情况 下 ,如 果 POST 操作 发 送 的 参数 是 用 于 查询 的 普通 字符 
串 , 便 可 以 使 用 GET 来 替代 POST, 同 样 能 得 到 相应 数据 ,但 这 时 需要 把 GET 发 送 
的 请 求 参数 附加 到 原始 URL 之 后 ,形成 类 似 “url?paraml = valuel&param2 = 
value28....paramN = valueN” HIE 5X , 

于 是 ,对 于 这 个 酒店 的 “常见 问答 "信息 得 到 了 新 的 URL: 

http://hotels. ctrip. com/Domestic/tool/AjaxHotelFaqLoad. aspx? hotelid = 
473871&.currentPage= 1 

在 浏览 器 中 输入 这 个 地 址 并 访问 ,可 以 看 到 如 图 4-8 所 示 的 网 页 显示 。 


[], "userid":62384507,"dealurl":"http://www.meituan.com/deal/0.html","score":5,"islong":0,"isFolda 
b1e":0,"id":1501740129,"userattr":0,"fbtimestamp":1542283909, "growthlevel":5,"feedbacktime":"2018 
-11- 

15","orderid":"945733498","dealid' 


10, "avatar":"https://img.meituan.net/w.h/avatar/df470565a720e77 

1fec1886aa81dc42935041.jpg", "isdoyen":0, "votestatus":0, "bizacctid":0, "bizreply":"", "doyenstatus": 

0, "isAnonymous”: false, "picinfo":[],"isQuick":false, "phrase":"", "readcnt":61, "shopname" :"7 天 连锁 酒店 
(北京 西 客站 丽 泽 桥 店 ) "，"comment" : "# 卫 生 好 # # 性 价 比 高 # 怎么 说 呢 ， 在 这 里 住 了 三 天 ， 感 觉 很 不 错 ， 价 位 合适 ， 卫 生 也 不 

$8, #7, ","isHighQuality":false, “poiid":2444480,"showdeal": false, “useful":0, "username": "/)\§ 

0010500", "status":1), 

("orderType":3,"dealtitle":"","replytime":"","replytimestamp":0, "readstatus":1, "type":" 酒 店 预订 评 

fi", " scoretext" : RI" , "doyeniconurl":"","canModify":false, "subscore": 

[], "userid":147612490, "dealurl":"http://www.meituan.com/deal/0.html", "score" 


able":0,"id":1475546298,"userattr":0,"fbtimestamp":1535875756,"growthlevel": 
8-09- 


"islong" 10, "isFold 
“feedbacktime": "201 


图 4-8 访问 查询 URL 的 结果 
获得 的 数据 正 是 包含 了 这 个 酒店 的 “常见 问答 ”信息 的 JSON 数据 ,很 显然 ,其 中 
的 hotelid 标志 了 一 个 特定 的 酒店 ,而 currentPage 字段 是 页 码 数 ,在 酒店 详情 页 面 中 
单 击 “ 下 一 页 ”, 执 行 的 实际 上 就 是 将 currentPage 递增 1 并 获取 新 数据 的 操作 。 
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有 时 候 分 析 这 样 的 参数 是 很 简单 的 ,因为 网 站 开发 者 在 为 参数 命名 时 一 般 会 采 
用 易于 理解 的 方式 , 像 id、page\city 这 种 参数 名 更 是 非常 常用 ,用 户 甚至 不 必 在 Form. 
Data 中 进行 详细 分 析 就 能 够 “ 猜 到 一 次 AJAX 数据 的 相关 信息 ,比如 携程 网 的 “ 北 
京 欢 乐 谷 ”门票 页 面 的 URL 是 “http://piao. ctrip. com/dest/157491. html”, 用户 其 
实 很 容易 就 能 猜 到 ,其 中 的 “57491? 正 是 当前 这 个 页 面 中 游览 景点 特有 的 id 值 。 为 了 
验证 这 个 想法 ,可 以 查看 这 个 门票 页 面 的 用 户 评论 信息 ,仍然 像 之 前 那样 打开 
Network XHR ,找到 包含 comment( 意 为 评论 ) 关 键 字 的 XHR 请 求 , 可 以 看 到 获取 
门票 页 面 用 户 评论 信息 的 链接 是 “http://piao. ctrip. com/Thingstodo-Booking- 
ShoppingWebSite/api/TicketDetail Api/action/GetUserComments?productId — 1604343 8. 
scenicSpotId— 574918. page= 1 ." Hir AY scenicSpotld 正 是 用 户 猜 到 的 id 值 。 

回 到 之 前 的 酒店 “常见 问答 ”信息 ,用 户 可 以 发 现 响应 的 JSON 数据 中 的 主要 字 
段 包括 AskContent、AskerText、ReplyList 等 ( 见 图 4-9)。 如 果 用 户 想 通过 程序 获取 
这 里 的 提问 和 对 应 的 回答 ,需要 通过 解析 这 些 JSON 数据 来 实现 。 


Url: "http://you.ctrip.com/asks/beijing1/5711877.html" 

Vi: (AskContent: "4 大 1 小 ， 孩 子 8 岁 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? ", AskContentTi 
AskContent: "4 大 1 小 ， 孩 子 8 岁 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? " 
AskContentTitle: "4 大 1 小 ， 孩 子 8 岁 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? ” 

AskId: 5584109 
AskerText: "AHA" 
CreateTime: BH- 
IsMyAsk: false 
NickName: "Maysnowheb" 
ReplyCount: 2 
wReplyList: [(NickName: " in4x«304", ReplierText: "酒店 经 理 ",-},-] 
v0: {NickName: " in4xex304", ReplierText: “酒店 经 理 "，-} 
NickName: " in4xee304" 
ReplierText: “酒店 经 理 " 
ReplyContent: “尊敬 的 客人 您 好 ， 景 观 套房 这 个 房间 您 加 床 恐 怕 您 也 是 住 不 下 的 ， 建 议 估 
ReptyContentTitte:“ 尊 敬 的 客人 您 好 ， 景 观 套 房 这 个 房间 您 加 床 恐 怕 您 也 是 住 不 下 的 ， 
ReplyId: 12061437 
ReplyTime: "2018-04-02" 
UsefulCount: 9 
ZanDisable: false 
Zaned: false 
v1: {NickName: " 肥 肉 梁 "，RepLierText; "入 住 用 户 "，RepLyContent; "REI! 4 
NickName: "EAR" 
ReplierText: "AAP" 
ReplyContent: " 没 住 过 ! 不 好 意思 ， 不 能 给 意见 !" 
ReplyContentTitle:" 没 住 过 ! 不 好 意思 ， 不 能 给 意见 1 " 
ReplyId: 12063152 
ReplyTime: ' Hc et^ n 
UsefulCount: § 
ZanDisable: false 
Zaned: false 


4-9 响应 的 JSON 数据 中 的 详细 内 容 
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4.2.2 提取 数据 


在 对 JSON 数据 中 的 内 容 进行 分 析 后 ,用 户 会 发 现 其 中 有 一 些 暂时 不 感 兴趣 的 
字段 ,例如 ReplyId 和 ReplyTime 等 。 如 果 想 编写 一 个 程序 ,获得 携程 网 酒店 对 应 的 
前 5 页 * 常 见 问答 ”的 最 基本 信息 ,也 就 是 提问 和 回答 的 内 容 , 只 需要 提取 该 JSON 中 
的 AskContentTitle 和 ReplyList 字段 。 从 用 户 对 Python 中 json 库 的 了 解 出 发 ,很 
快 便 能 够 写 出 这 样 的 一 个 简单 程序 , 见 例 4-3。 

[B 4-31 抓 取 酒店 常见 问答 的 JSON 信息 。 

import requests 


import json 
from pprint import pprint 


urls=['http://hotels. ctrip. com/Domestic/tool/AjaxHotelFaqLoad. aspx?hotelid = 473871& 
currentPage = ()'.format(i) for i in range(1,6)] 
for url in urls: 

res = requests. get(url) 

jsl = json. loads(res. text) 

asklist = dict(js1). get( 'AskList') 

for one in asklist: 

print( ' 问 : {}\n 4%: {}\n'. format (one[ 'AskContentTitle'], one[ 'ReplyList'][0] 

[ 'ReplyContentTitle'])) 


在 上 面 的 代码 中 ,由 于 只 抓 取 单一 页 面 中 的 很 少 一 部 分 JSON 数据 ,因此 没有 使 
用 headers 信息 ,也 没有 任何 对 疏 虫 的 限制 (比如 访问 的 时 间 间 隔 )。urls 是 一 个 根据 
currentPage 的 值 进行 构造 的 url 列表 ,用 户 对 其 中 的 url 进行 循环 抓 取 ; asklist 是 将 
JSON 中 的 AskList 字段 单独 拿 出 来 ,以 便于 用 户 后 续 在 其 中 寻找 AskContentTile 
(代表 提问 的 标题 ) 和 ReplyContentTitle( 代 表 回 答 的 标题 ) 。 

运行 上 面 的 程序 ,能够 得 到 非常 整洁 的 输出 ,如 图 4-10 所 示 , 内 容 与 用 户 在 网 页 
中 看 到 的 一 致 。 

但 这 样 的 简单 程序 毕竟 稍 显 单薄 ,主要 的 不 足 如 下 : 

(1) 只 能 抓 取 问 答 JSON 中 的 少量 信息 ,回答 日 期 和 回答 用 户 身份 (普通 用 户 或 
者 酒店 经 理 ) 没 有 记录 下 来 。 

(2) 有 一 些 提问 同时 拥有 多 条 回答 ,这 里 没有 完整 的 获取 。 
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BORA ARH BMSALE? 
BF, MARIREA., REARGMEG, KAROTES, REASOILE, CRAMEROOIEA, UbRBSS. 


4 大 1 小 ， 孩 子 8 岁 ， 景 观 套房 能 住 下 吗 ? 用 加 钱 加 床 吗 ? 
尊敬 的 客人 您 好 ， 景 观 套房 这 个 房间 您 加 床 恐 怕 您 也 是 住 不 下 的 ， 建 议 您 订 红木 家 庭 套 房 ， 然 后 我 们 酒店 这 边 为 您 再 加 钱 加 张 床 估计 就 没 问 题 啦 。 


三 大 一 小 住 什么 房型 合适 ? 
您 好 您 三 大 一 小 住 帐 幅 大 床 就 可 以 了 


三 大 一 小 住 什 么 房型 合适 
住 帐 由 和 家 庭 房 都 可 以 的 


我 们 四 大 两 小 ， 小 孩 一 个 六 岁 一 个 2 岁 一 套 家 庭 房 住 得 下 吗 
您 好 ， 您 四 位 大 人 ， 两 个 小 孩 要 是 住家 庭 房 需要 加 一 张 床 


请 问 大 床 房 可 以 加 床 吗 
可 以 加 床 的 ， 这 个 需要 每 天 加 收 209 加 床 费 的 。 


an wa wa 


a2 "s MS 


图 4-10 简单 的 JSON 抓 取 程 序 的 输出 


(3) 没有 足够 的 仆 虫 限制 机 制 ,可 能 有 被 服务 器 拒绝 访问 的 风险 。 

(4) 程序 模块 化 不 够 ,不 利于 后 续 的 调试 和 使 用 。 

C» 没有 合理 的 数据 存储 机 制 ,输出 完毕 后 ,计算 机 的 内 存 和 存储 中 都 不 再 有 这 
些 信 息 了 。 

从 这 些 考 虑 出 发 ,对 上 面 的 代码 进行 重新 编写 ,为 它 解决 这 几 条 不 足 , 得 到 的 最 
终 程序 见 例 4-4。 

【 例 4-4】 酒店 问答 数据 抓 取 程序 


import requests 
import time 
from pymongo import MongoClient 


# client = MongoClient( 'mongodb://yourserver:yourport/') 

client = MongoClient() # 使 用 Pymongo 对 数据 库 进行 初始 化 ,由 于 用 户 使 用 了 本 地 mongodb, 
# 因 此 此 处 不 需要 配置 

# 等 效 于 client = MongoClient('localhost', 27017) 


* 使 用 名 为 “ctrip” 的 数据 库 
db = client[ 'ctrip'] 
# 使 用 其 中 的 collection 表 : hotelfaq( 酒 店 常见 问答 ) 
collection = db[ 'hotelfaq'] 
global hotel 
global max page num 
+ 原始 数据 获取 URL 
raw url = 'http://hotels. ctrip. com/Domestic/tool/AjaxHotelFaqLoad. aspx? ' 
# 根据 开发 者 工具 中 的 request header 信息 来 设置 headers 
headers = { 
'Host': ‘hotels. ctrip. com’, 
'Referer': ‘http: //hotels. ctrip. com/hotel/473871. html’, 
"User - Agent ': 
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'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/66. 0. 3359.170 Safari/537.36' 
} 
# 在 此 只 使 用 了 Host.Referer,User - Agent 这 几 个 关键 字段 


def get json(hotel, page): 
params = { 
'hotelid': hotel, 
'page': page 
) 
try: 
* 使 用 request 中 get() 方 法 的 parans 参数 
res = requests. get(raw_url, headers = headers, params = params) 
if res.ok: # 成 功 访问 
return res. json() # 返回 JSON 
except Exception as e: 
print('Error here:\t', e) 


* JSON 数据 处 理 
def json parser(json): 
if json is not None: 
asks list= json.get('AskList') 
if not asks list: 
return None 
for ask_item in asks list: 
one ask = {} 
one ask['id'] = ask item. get( AskId') 
one ask[ 'hotel'] = hotel 
one ask[ 'createtime'] = ask item.get( 'CreateTime') 
one ask['ask'] = ask item.get( 'AskContentTitle') 
one ask[ 'reply'] = [] 
if ask item.get( ReplyList'): 
for reply item in ask item.get( ReplyList'): 
one ask[ reply'].append((reply item.get( 'ReplierText'), 
reply item.get('ReplyContentTitle'), 
reply item.get( 'ReplyTime') 
) 


yield one ask * 使 用 生成 器 yield Jrik 
+ 存储 到 数据 库 
def save to mongo(data): 
if collection. insert(data): + 插入 一 条 数据 


print( 'Saving to db! ') 


+ 工作 函数 
def worker(hotel): 
max page num = int(input('input max page num:')) + 输入 最 大 页 数 (通过 观察 问答 网 页 可 以 
并 得 到 ) 
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for page in range(1, max page num + 1): 


time. sleep(1.5) * 访问 间隔 , 避免 服务 器 由 于 过 高 压力 而 拒绝 访问 
print('page now: \t{}'. format(page) ) 
raw json- get json(hotel, page) * 获取 原始 JSON 数据 


res set- json parser(raw json) 
for res in res set: 

print(res) 

save to mongo(res) 


if name  -- ' main 
hotel = int(input('input hotel id:')  # 以 本 例 而 言 , hotel id X 473871 
worker(hotel) 


在 此 输入 之 前 所 看 到 的 一 家 酒店 的 页 面 中 的 信息 ,酒店 ID 为 473871、 页 数 为 27 
页 ,程序 运行 结束 后 ,用 户 可 以 看 到 成 功 地 疏 取 到 了 数据 ( 见 图 4-11)。 当 然 ,使 用 另 
外 一 家 酒店 的 页 面 中 的 酒店 ID 和 页 数 信息 也 能 得 到 类 似 的 结果 。 


MAMALATAA—REB? ", "reply + LL "酒店 经 


^, reply : E E "酒店 
"reply: LC "酒店 经 理 "， 


i 
i 
H 
H 
H 


[RNERNTNEN, 18A TEA BRRGNTR 
BRRERANSREGT, P102 LUE BRTAARER 


ime: 2016-09-30", "akt i CRURA RGLORUNR S "repr c C CURAR 


4 "lia" : OpjectId(*Sat7e79deic4390780420730"), “id : 2774927, "creztetime" : "2010-09-09", "ask" : “请 问 大 康 一 张 床 是 多 大 *，*reply” : (MARR, "M 
HORRODKSK BOR", "2017-09-19" 1, [ "AEMP", "MAMAA", 7207-9829 11) 


图 4-11 数据 库 中 的 问答 内 容 


除了 这 种 直接 在 JSON 数据 中 抓 取 信息 的 方法 以 外 ,有 时 候 我 们 不 会 那么 直接 ， 
而 是 将 AJAX 数据 作为 跳板 ,通过 其 中 的 内 容 来 继续 下 一 步 抓 取 , 这 种 模式 最 为 典型 
的 例子 就 是 在 一 些 网 页 中 抓 取 图 片 。 比 如 说 ,类 似 于 新 闻 或 门户 网 站 这 样 的 与 论 中 
心 ,往往 会 将 每 一 则 新 闻 报 道 项 目 中 的 图 片 链接 地 址 单独 作为 一 份 AJAX 数据 来 传 
输 ,并 最 终 通过 网 页 元 素 泻 染 给 用 户 , 这 时 如 果 打 算 抓 取 网 页 中 的 图 片 ,可 能 就 会 避 

页 采集 ,而 直接 访问 对 应 的 AJAX 接口 ,进行 图 片 的 下 载 和 保存 操作 。 

这 里 通过 一 个 简单 的 例子 来 说 明 这 一 点 ,在 哗 哩 哗 哩 (网 址 为 bilibili. com. 一 个 
国内 知名 的 弹 幕 视频 网 站 ) 的 首页 下 方 有 一 个 特别 推荐 区 域 , 该 区 域 会 展示 一 些 推广 
视频 ,如 图 4-12 所 示 。 

其 中 的 内 容 正 是 通过 AJAX 进行 加 载 的 ,用 户 在 开发 者 工具 中 能 够 很 清楚 地 看 
到 这 一 点 ,如 图 4-13 所 示 。 
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O 特别 推荐 

LJ 
Qr > eres O 
BEKE 合集 第 一 期 UN) B 方 柄 氏 之 歌 COS T? 皇家 淑女 为 何 满 手 鲜血 1 


ame 


[DD promote-tag.json 


口 getSearchDefaultWords 


图 4-12 哗 哩 轮 哩 首页 中 的 “特别 推荐 ” 


天 “Heaaers Preview | Hesponse Gookies 1ming 


口 Ye: (aid: 23503653, last recommend: [(mid: 669, time: 1526451593, msg 
i aid: 23503653 
L] 101.ver author: "BXIl-PuFF" 
[.] web. page. view?mid-4970878fts... | coins: 616 
create: "& Pl =i of "i 
[DD ajaxindexSettings crenata 
口 web?0000141526466147456https... description: "创作 类 型 ; MIMAGM LR: 18101: ARRAS: 创造 101v 歌 # 
Ope duration: "2:39" 
= favorites: 349 
= > last_recommend: [{mid: 669, time: 1526451593, msg: "MARE", uname: "L: 
L pe mid: 1526101 
L] pe pic: "http://i0.hdslb. com/bfs/archive/a2b33b1035efd2ab6072324f8b0bc709a 
pe play: 4480 
= review: 149 
Ure subtitle: "" 
Upe title: " DAW] (2/8101) HAA: 我 的 可 爱 只 有 你 知道 w” 
pc | typeid: 154 
— typename: 元 舞蹈" 
Li pe video review: 117 
|| pe | wa: aid: 23448627, last recommend: [{mid: 7344, time: 1526319686, msg: "" 
O pe aid: 23448627 
author: "IT 46" 
pe coins: 46 
LJ pe create: od MI ad rr" 
pc 
[pe "相关 游戏 ! BROMINE: 咕 了 一 个 星期 终于 咕 出 来 的 新 手 向 超 巴 攻略 
duration: "20:39" 
O pc | favorites: 72 
{J pe Plast recommend: [{mid: 7344, time: 1526319686, msg: "", uname: "Mz", 
Ces mid: 690918 
Cpe http: //i2.hds Lb. com/bfs/archive/90c373c92d504c901 fab4062fe8691283 
|| pe | 
Li 104.ver le: " € " 
口 web?0000161526466147455https.... SUN ARON see 
[.] web?0000161526466147455https... typename: "手机 游戏 " 


在 Request Headers 中 ,用 户 可 以 确定 最 为 重要 的 一 


图 4-13 在 开发 者 模式 下 找到 的 “特别 推荐 ”数据 ,使 用 Preview 
些 信息 ,获取 该 数据 的 URL 


为 “https://www. bilibili. com/index/recommend. json”, 而 Host, Referer, User- 


Agent 等 字段 可 以 完全 照搬 。 结 合 之 前 采集 AJAX 中 的 ISON 数据 和 抓 取 图 片 的 经 


验 , 用 户 最 终 能 够 编写 


抓 取 * 特 别 推荐 ”中 视频 图 片 的 怜 虫 程序 , 见 例 4-5. 
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[5|4-5] 哗 哩 哗 哩 “特别 推荐 ?视频 图 片 的 抓 取 。 


import requests 
import time 
import os 


# 原始 数据 获取 URL 
raw url- 'https://www. bilibili.com/index/recommend. json' 
# 根据 开发 者 工具 中 的 request header 信息 来 设置 headers 
headers = ( 

"Host ': 'www. bilibili.com', 

'X— Requested - With’: 'XMLHttpRequest', 

"User - Agent': 

Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 (KHTML, like Gecko) 

Chrome/66. 0. 3359. 170 Safari/537.36' 
) 


def save image(url): 
filename = url.lstrip('http://').replace('.', ''). replace('/', '").rstrip('jpg') + '.jpg' 
# 将 图 片 地 址 转化 为 图 片 文 件 名 
try: 
res = requests.get(url, headers = headers) 
if res.ok: 
img - res.content 
if not os.path.exists(filename): + 检查 该 图 片 是 否 已 经 下 载 过 
with open(filename, 'wb') as f: 
f.write(ing) 
except Exception: 
print( Failed to load the picture') 


def get json(): 


try: 
res = requests.get(raw url, headers = headers) 
if res. ok: * 成 功 访问 
return res. json() * 返回 JSON 
else: 


print('not ok') 
return False 
except Exception as e: 
print('Error here:\t', e) 


* JSON 数据 处 理 
def json parser( json): 
if json is not None: 
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news list- json.get( list') 
if not news list: 
return False 
for news item in news list: 
pic url- news item.get('pic') 


yield pic url # 使 用 生成 器 Yield 方法 
def worker(): 
raw json- get json() + 获取 原始 JSON 数据 


print(raw json) 
urls- json parser(raw json) 
for url in urls: 

save image(url) 


if name == ' main ': 


worker() 


这 个 程序 在 框架 上 和 之 前 的 携程 问答 抓 取 的 程序 非常 接近 ,运行 该 程序 ,用 户 最 
终 能 够 在 本 地 文件 目录 下 看 到 下 载 后 的 图 片 ( 见 图 4-14) ,如 果 想 在 一 个 特定 的 目录 
中 存放 这 些 图 片 ,只 需要 在 文件 操作 中 设置 统一 的 上 级 目录 即 可 (或 者 直接 更 改 
filename, 变 为 “.../parentdir/xxx. jpg” 的 形式 ) 。 


E» zw sS Dd 


i2hdslbcombfsarc i2hdslbcombfsarc i2hdslbcombfsarc i2hdslbcombfsarc 
hive05c...17f47jpg hiveS0c..c751jpg hiveaB3..c409jpg hiveaec..dd07jpg 


图 4-14 下 载 到 了 本 地 的 视频 封面 图 片 
4.3 抓 取 动态 内 容 


4.3.1 动态 泻 染 页 面 


E 4. 2 节 中 可 以 看 到 ,网 页 会 使 用 JavaScript 加 载 数据 ,对 应 于 这 种 模式 ,用 户 可 
以 通过 分 析 数 据 接口 进行 直接 抓 取 ,但 这 种 方式 需要 用 户 对 网 页 的 内 容 、 格 式 和 
JavaScript 代码 有 所 研究 才能 顺利 完成 。 用 户 还 会 碰 到 另外 一 些 页 面 ,这 些 页 面 同样 
使 用 AJAX 技术 ,但 是 其 页 面 结构 比较 复杂 ,很 多 网 页 中 的 关键 数据 由 AJAX 获得 ， 
而 页 面 元 素 本 身 使 用 JavaScript 添加 或 修改 ,甚至 用 户 感 兴趣 的 内 容 在 原始 页 面 中 
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并 不 出 现 , 需 要 进行 一 定 的 用 户 交互 (比如 不 断 下 拉 滚 动 条 ) 才 会 显示 。 对 于 这 种 情 
况 , 为 了 方便 ,用 户 就 会 考虑 使 用 模拟 浏览 器 的 方法 进行 抓 取 ,而 不 是 通过 “逆向 工 
程 ”去 分 析 AJAX 接口 。 使 用 模拟 浏览 器 的 方法 的 特点 是 普 适 性 强 、 开 发 耗 时 短 、 抓 
取 耗 时 长 (模拟 浏览 器 的 性 能 问题 始终 令 人 忧虑 ) ,使 用 分 析 AJAX 的 方法 的 特点 刚 
好 与 模拟 浏览 器 相反 ,甚至 在 同一 个 网 站 的 同一 个 类 别 中 的 不 同 网 页 上 ,AJAX 数据 
的 具体 访问 信息 都 有 差别 ,因此 开发 过 程 投 入 的 时 间 和 精力 成 本 是 比较 大 的 。 对 
于 4.2 节 提 到 的 酒店 “常见 问答 ”的 抓 取 , 用 户 也 可 以 用 模拟 浏览 器 的 方法 来 做 ,但 
鉴于 这 个 AJAX 形式 并 不 复杂 ,而 且 页面 结构 相对 简单 (没有 复杂 的 动画 ), 因 此 使 
用 AJAX 道 向 分 析 会 是 比较 明智 的 选择 。 如 果 用 户 磁 到 页 面 结构 相对 复杂 或 者 
AJAX 数据 分 析 比 较 困难 (比如 数据 经 过 加 密 ) 的 情况 ,就 需要 考虑 使 用 浏览 器 模 
拟 的 方式 了 。 

需要 注意 的 是 ,“AJAX 数据 抓 取 ” 和 “动态 页 面 抓 取 ” 是 两 个 很 容易 混淆 的 概念 ， 
TEM" AJAX 页 面 * 和 “动态 页 面 * 让 人 摸 不 着 头脑 一 样 。 可 以 这 样 说 ,动态 页 面 
(Dynamic HTML,DHTML) 是 指 利用 了 JavaScript 在 客户 端 改 变 页 面 元 素 的 一 类 页 
面 , 而 AJAX 页 面 是 指 利用 JavaScript 请 求 了 网 页 中 数据 内 容 的 页 面 , 这 两 者 很 难 分 
开 , 因 为 很 少 会 见 到 利用 JavaScript 只 请 求 数据 或 者 用 JavaScript 只 改变 页 面 内 容 的 
网 页 ,所 以 将 *AJAX 数据 抓 取 ”和 ”动态 页 面 抓 取 ”分 开 谈 其 实 也 是 不 太 妥 当 的 ,在 这 
里 分 开 两 个 概念 只 是 为 了 从 抓 取 的 角度 审视 网 页 ,实际 上 这 两 类 网 页 并 没有 本 质 上 
I 不 同 。 


4.3.2 使 用 Selenium 


在 Python 模拟 浏览 器 进行 数据 抓 取 方 面 ,Selenium( 见 图 4-15) 永 远 是 必 不 可 少 
WAZ. 。Selenium( 意 为 化 学 元 素 “ 硒 ”) 是 浏览 器 自动 化 工具 ,在 设计 之 初 是 为 了 进 
行 浏览 器 的 功能 测试 ,Selenium 的 作用 直观 地 说 就 是 操作 浏览 器 ,进行 一 些 类 似 普 通 
用 户 的 操作 ,比如 访问 某 个 地 址 、 判 断 网 页 状态 . 单 击 网 页 中 的 某 个 元 素 ( 按 钮 ) 等 。 
使 用 Selenium 操控 浏览 器 进行 的 数据 抓 取 其 实 不 能 算是 一 种 “的 虫 "程序 , 谈 到 的 
虫 ,用 户 一 般 会 想到 是 独立 于 浏览 器 之 外 的 程序 ,但 无 论 如 何 ,这 种 方法 能 够 帮助 用 
户 解决 一 些 比较 复杂 的 网 页 抓 取 任 务 , 由 于 直接 使 用 了 浏览 器 ,所 以 麻烦 的 AJAX 数 
据 和 JavaScript 动态 页 面 一 般 都 已 经 演 染 完成 。 利 用 一 些 函 数 ,用 户 完全 可 以 做 到 
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随心 所 和 欲 的 抓 取 ,加 之 开发 流程 也 比较 简单 ,因此 有 必要 对 其 进行 基本 的 介绍 。 


edit this page search selenium: IE co 


[ 
Se Projects Download Documentation Support About 


í SeleniumHQ 


Browser Automation 


What is Selenium? 


Selenium automates browsers. That's it! What you do with that power is entirely up to you. 
Primarily, it is for automating web applications for testing purposes, but is certainly not 
limited to just that. Boring web-based administration tasks can (and should!) be 
automated as well. 


Selenium has the support of some of the largest browser vendors who have taken (or are 
taking) steps to make Selenium a native part of their browser. It is also the core 
technology in countless other browser automation tools, APIs and frameworks. 


. uu . Selenium is a suite of tools 

Which part of Selenium is appropriate for me? to automate web browsers 
across many platforms. 
Selenium... 


Selenium WebDriver Selenium IDE * runs in many browsers 
and operating systems 


* can be controlled by 
many programming 
languages and testing 


frameworks. 
1f you want to 1f you want to q 
* create robust, browser-based regression * create quick bug © Download Selenium 
automation suites and tests reproduction scripts 
* scale and distribute scripts across many * create scripts to aid in 
environments automation-aided 


exploratory testing 


图 4-15 Selenium 官网 介绍 

Selenium 本 身 只 是 个 工具 ,不 是 一 个 具体 的 浏览 器 ,但 是 Selenium 支持 包括 
Chrome 和 Firefox 在 内 的 主流 浏览 器 。 为 了 在 Python 中 使 用 Selenium, 用 户 需要 安 
装 selenium 库 ( 仍 然 通过 pip install selenium 的 方式 进行 安装 )。 完 成 安装 后 ,为 了 
使 用 特定 的 浏览 器 ,用 户 可 能 需要 下 载 对 应 的 驱动 ,以 Chrome 为 例 , 可 以 在 Google 
的 对 应 站 点 下 载 , 即 “http://chromedriver. storage. googleapis. com/index. html”, 最 
新 的 ChromeDriver 可 见 “http://chromedriver. chromium. org/downloads”, 将 下 载 
到 的 文件 放 在 某 个 路 径 下 ,并 在 程序 中 指明 该 路 径 即 可 ,如 果 想 避免 每 次 配置 路 径 的 
麻烦 ,可 以 将 该 路 径 设置 为 环境 变量 ,这 里 就 不 再 袭 述 了 。 

下 面 通过 一 个 访问 百度 新 闻 站 点 的 例子 来 引入 Selenium, St fi] 4-6。 

[514-6] 使 用 Selenium 的 最 简单 的 例子 。 

from selenium import webdriver 

import time 


browser = webdriver.Chrome('your chrome driver path') 
+ fii) 4l */ home/ zyang/ chromedriver" 
browser.get( ‘http: www. baidu. com’) 
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print(browser. title) # 输出 “百度 一 下 ,你 就 知道 ” 
browser. find element by name("tj trnews").click() + 单 击 “ 新 闻 ” 

browser.find element by class name('hdline0').click() # 单 击 头 条 
print(browser.current url) * 输出 “http://news. baidu. com/” 
time. sleep(10) 

browser.quit() # 退出 


运行 上 面 的 代码 ,用 户 会 看 到 Chrome 程序 被 打开 ,浏览 器 访问 了 百度 首页 , 然 
后 跳 转 到 了 百度 新 闻 页 面 , 之 后 又 选择 了 该 页 面 的 第 一 个 头条 新 闻 , 从 而 打开 了 新 的 
新 闻 页 。 在 一 段 时 间 后 ,浏览 器 关闭 并 退出 ,控制 台 会 输出 “百度 一 下 ,你 就 知道 ”对 
应 browser. title) 和 “http://news. baidu. com/”( 对 应 browser. current_url) 。 这 对 用 
户 无 疑 是 一 个 好 消息 ,如 果 能 获取 对 浏览 器 的 控制 权 , 那 么 抓 取 某 一 部 分 的 内 容 会 变 
得 容易 多 了 。 

另外 ,Selenium 库 能 够 为 用 户 提 供 实时 网 页 源 代 码 , 这 使 得 结合 Selenium 和 
BeautifulSoup( 以 及 其 他 的 在 之 前 章节 中 提 到 的 网 页 元 素 解析 方法 ) 成 为 可 能 ,如 果 
用 户 对 Selenium 库 自 带 的 元 素 定位 API 不 甚 满意 ,那么 这 会 是 一 个 非常 好 的 选择 。 
总 的 来 说 ,使 用 Selenium 库 的 主要 步骤 如 下 。 

CD 创建 浏览 器 对 象 ,即使 用 类 似 下 面 的 语句 : 


from selenium import webdriver 


browser = webdriver.Chrome() 
browser = webdriver.Firefox() 
browser = webdriver.PhantomJS() 
browser = webdriver.Safari() 


(2) 访问 页 面 ,主要 使 用 browser. get() 方 法 传人 目标 网 页 地 址 。 
(3) 定位 网 页 元 素 ,可 以 使 用 Selenium 自 带 的 元 素 查 找 API, B: 


element = browser.find element by id("id") 

element = browser.find element by name("name") 

element = browser.find element by xpath("xpath") 

element = browser.find element by link text('link text') 

element = browser.find element by tag name(' tag name') 

element = browser.find element by class name('class name') 

element = browser.find elements by class name() # 定位 多 个 元 素 的 版 本 
EAS 
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用 户 还 可 以 使 用 browser. page source 获取 当前 网 页 源 代 码 并 使 用 BeautifulSoup 
等 网 页 解析 工具 定位 : 


from selenium import webdriver 
from bs4 import BeautifulSoup 


browser = webdriver. Chrome( 'your chrome driver path') 

url = 'https://www. douban. com’ 

browser. get (url) 

ht = BeautifulSoup( browser. page_source, 'lxml') 

for one in ht.find all('a',class - 'title'): 
print(one. text) 

* 输出 

# 52 ff A ^E — 戴 锦 华 大师 电 影 课 

# FAM —A-F BAA LE 

E GLA A — RIA AE TH IO FEES BEAR 

+ 一 个 故事 的 诞生 一 一 22 堂 创意 思维 写作 课 

# 12 文 之 一 -围绕 日 本 文学 的 骨 险 

# 成 为 更 好 的 自己 一 一 许 燕 人 格 心 理学 32 VE 

E 控制 力 幻象 一 焦虑 感 背后 的 心理 觉察 

# 小 说 课 一 一 毕 飞 宇 解读 中 外 经 典 

# 亲密 而 独立 一 一 洞悉 爱情 的 20 堂 心理 课 

# 觉 知 即 新 生 一 一 终止 童年 创伤 的 心理 修复 课 


(4) 网 页 交互 ,对 元 素 进行 输入 .选择 等 操作 。 例 如 访问 豆瓣 网 并 搜索 某 一 关键 
字 ( 见 例 4-7, 效 果 如 图 4-16 所 示 )。 
LBI 4-7] 使 用 Selenium 配合 Chrome 在 豆 办 网 进行 搜索 。 


from selenium import webdriver 
import time 
from selenium. webdriver. common. by import By 


browser = webdriver. Chrome( 'your chrome driver path') 
browser. get( ‘http: //www. douban. com’) 

time. sleep(1) 

search box = browser. find_element (By. NAME, 'q') 
search box.send keys( ' 网 站 开发 ') 

button = browser.find element(By.CLASS NAME, 'bn') 
button. click() 


GER] 在 上 面 的 例子 中 使 用 了 By, 这 是 一 个 附加 的 用 于 网 页 元 素 定位 的 类 ,为 
查找 元 素 提 供 了 更 抽象 的 统一 接口 。 实 际 上 ,该 段 代 码 中 的 browser. find_element(By. 
CLASS_NAME, 'bn')#e browser. find_element_by_class_name('bn') 是 等 效 的 。 
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9 0 ， 回 搜索 :网 站 开发 x WB 


所 Œ | à Secure | https://www.douban.com/search?q= 网 站 开发 


Chrome is being controlled by automated test software. 


gWdobg sx suem 话题 广场 


网 站 开发 
Em 网 站 开发 T srHunk5Mene 

电影 

js [148] 专业 网 页 设计 制作 +php 网 站 建设 开发 

BK php 
4009 ALA 

小 组 专业 网 页 设计 制作 +php 网 站 建设 开发 服务 合作 与 交流 1 一 起 进步 吧 | BNET 接 私 
活 ， 外 包 合 作 ， 有 风险 ， 需 说 情 。 请 擦 亮 限 睛 认 清楚 ， 本 小 组 只 提 们 对 于 设计 师 

成 员 和 

日 记 


图 片 [小 组 ] 大 型 网 站 开发 m 
小 站 3531 成 员 


每 一 个 小 站 都 要 由 小 站 发 站 到 大 站 的 过 程 ， 在 发 展 过 程 中 访问 重 会 越 来 越 大 ， 数 据 量 越 来 


同城 活动 越 多 ， 原 来 的 设计 框架 已 经 不 适合 新 的 环境 要 求 ， 在 这 过 程 中 需要 我 们 需要 知道 一 个 象 
nan ba 
游戏 — 
[小 组 ] PHP 网 页 设计 网 站 开发 web. 
移动 应 用 E 


图 4-16 使 用 Selenium 操作 Chrome 进行 豆瓣 网 搜索 的 结果 


在 导航 (窗口 中 的 前 进 与 后 退 ) 方 面 ,主要 使 用 browser. back () 和 browser. 
forward() 两 个 函数 。 
(5) 获取 元 素 属 性 ,可 以 使 用 的 函数 、 方 法 很 多 。 


# one 应 该 是 一 个 selenium. webdriver. remote. webelement. WebElement 类 的 对 象 
one. text 

one.get attribute( href') 

one.tag name 

one. id 


在 Selenium 自动 化 浏览 器 时 ,除了 单 击 、 查 找 这 些 操作 ,实际 上 还 需要 一 个 常用 
操作 , 即 “ 下 拉 页 面 ”, 直 观 地 讲 , 就 是 在 模拟 浏览 器 中 实现 鼠标 滚轮 下 滑 或 者 拖 动 右 
侧 滚动 条 的 效果 。 遗 憾 的 是 ,selenium 库 本 身 没有 提供 这 一 便利 ,但 用 户 可 以 使 用 两 
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种 方式 来 解决 这 个 问题 ,一 是 使 用 模拟 键盘 输入 (例如 输入 PageDown) ,二 是 使 用 执 
行 JavaScript 代码 的 形式 。 
【 例 4-8] Selenium 模拟 页 面 下 拉 滚动 。 


from selenium import webdriver 

from selenium. webdriver import ActionChains 
from selenium. webdriver.common.keys import Keys 
import time 


# 深 动 页 面 
browser = webdriver. Chrome( 'your chrome driver path') 
browser. get( 'https: //news. baidu. com/') 
print(browser.title) + 输出 “百度 一 下 ,你 就 知道 ” 
for i in range(20): 
# browser.execute_script ("window. scrollTo( 0, document. body. scrollHeight )") 
# 使 用 执行 JS 的 方式 滚动 
ActionChains(browser).send keys(Keys.PAGE DOWN).perform() # 使 用 模拟 键盘 输入 的 方式 
# 深 动 
time. sleep(0.5) 


browser.quit() * 退出 


在 上 面 的 代码 中 ,使 用 Selenium 操作 Chrome 访问 百度 新 闻 首 页 ,并 执行 下 滚 页 
面 的 动作 。 第 一 种 方法 使 用 了 ActionChains (动作 链 ,一 些 中 文 文档 中 译 为 “行为 
fi") ,这 是 一 个 为 模拟 一 组 键 鼠 操作 而 设计 的 类 ,在 perform() 调 用 时 会 执行 
ActionChains 存储 的 所 用 动作 ,例如 : 


ActionChains(browser). move to element(some element).click(a button). send keys(some | 
keys).perform() 


这 种 写法 被 称 为 “ 链 式 模型 ”, 当然, 同样 的 逻辑 可 以 换 一 种 写法 : 


ac = ActionChains(browser) 
ac.move to element(some element) 
ac.click(a button) 

ac.send keys(some keys) 

ac. perforn() 


ActionChains 允许 用 户 进行 一 些 相 对 复杂 的 操作 ,比如 将 网 页 中 的 一 部 分 进行 
拖 虹 并 读 取 页 面 弹出 窗口 信息 。 用 户 可 以 使 用 switch_to() 方 法 来 切换 frame, 通 过 
webdriver. common. alert 包 中 的 Alert 类 来 读 取 当前 弹 窗 警告 信息 。 这 里 利用 菜鸟 
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教程 中 的 一 个 演示 页 面 来 说 明 ( 地 址 为 “http://www. runoob. com/try/try. php? 
filename 二 jqueryui-api-droppable”, 见 图 4-17) ,用户 打开 开发 者 工具 查看 网 页 结构 ， 
可 以 看 到 iframe 这 个 结 点 。 


CC uem We Te RSS Wem AER RU 
RUNOOB.COM m 


请 放置 到 这 里 1 


图 4-17 RUNOOB 演示 网 页 的 结构 


据 此 可 以 编写 出 代码 , 见 例 4-9。 
【 例 4-9】 拖 忠 网 页 中 的 区 域 并 读 取 弹 出 框 信息 。 


from selenium import webdriver 
from selenium. webdriver import ActionChains 
from selenium. webdriver. common.alert import Alert 


browser = webdriver. Chrome( 'your chrome driver path') 

url = 'http://www. runoob. com/try/try. php?filename = jqueryui — api — droppable' 
browser.get(url) 

* 切换 到 一 个 frame 

browser. switch_to. frame( 'iframeResult') 

# 不 推荐 browser. switch_to_frame()7F7 


# 根据 id 定位 元 素 
source = browser.find element by id('draggable') * 被 抑 电 区 域 
target = browser.find element by id( 'droppable') * 目标 区 域 


ActionChains(browser).drag and drop(source, target).perform() # 执行 动作 链 
alt = Alert(browser) 

print(alt.text) * 输出 “dropped” 
alt.accept() # 接受 弹出 框 


除了 上 面 的 方法 以 外 , 另 一 种 下 滚 页 面 的 策略 是 使 用 execute_script() 方 法 ,该 
方法 会 在 当前 的 浏览 器 窗口 中 执行 一 段 JavaScript 代码 。 一 般 而 言 ,使 用 DOM( 网 
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页 的 文档 对 象 模型 ) 的 window 对 象 中 的 scrollTo() 方 法 可 以 滚动 到 任意 位 置 , 由 于 
传人 的 参数 为 “document. body. scrollHeight”, 表 示 页 面 整个 body 的 高 度 , 因 此 该 方 
法 执行 后 会 滚动 到 当前 页 面 的 最 下 方 。 除 了 下 滚 页 面 之 外 ,利用 execute_script() 显 
然 还 可 以 实现 很 多 有 意思 的 效果 。 

最 后 ,在 使 用 Selenium 时 要 注意 隐 式 等 待 的 概念 ,在 Selenium 中 具体 的 函数 为 
implicitly_wait()。 由 于 AJAX 技术 的 原因 (使 用 Selenium 的 主要 出 发 点 就 是 对 付 比 
较 复杂 的 基于 JavaScript 的 页 面 ), 网 页 中 的 元 素 可 能 是 在 打开 页 面 后 的 不 同时 间 加 
载 完 成 的 (取决 于 网 络 通信 情况 和 JS 脚本 详细 内 容 等 ) ,等 待机 制 保证 了 浏览 器 在 被 
驱动 时 能 够 有 寻找 元 素 的 缓冲 时 间 , 显 式 等 待 是 指使 用 代码 命令 浏览 器 在 等 待 一 个 
确定 的 条 件 出 现 后 执行 后 续 操作 , 隐 式 等 待 一 般 需 要 先 使 用 元 素 定 位 API 函数 来 指 
定 某 个 元 素 ,使 用 方法 类 似 下 面 的 代码 : 


from selenium import webdriver 


browser = webdriver.Firefox() 

browser.implicitly wait(10) * 隐 式 等 待 10 秒 
browser.get("the site you want to visit") 

myDynamicElement = browser.find element by id( Dynamic Element ') 


如 果 find_element_by_id() 未 能 立即 获取 结果 ,程序 将 保持 轮 询 并 等 待 10 秒 的 
期 限 。 由 于 隐 式 等 待 的 使 用 方式 不 够 灵活 ,而 显 式 等 待 可 以 通过 WebDriverWait 结 
合 ExpectedCondition 等 方法 进行 比较 灵活 的 定制 ,因此 后 者 是 推荐 的 选择 ,前 者 可 
以 用 在 程序 前 期 的 调试 开发 中 。 

值得 一 提 的 是 ,除了 Chrome 和 Firefox 这 样 的 界面 型 浏览 器 以 外 ,在 网 络 数据 
的 抓 取 中 用 户 还 经 常 看 到 PhantomJS 的 身影 ,这 是 一 个 被 称 为 “无 头 浏览 器 ”的 工具 ， 
所 谓 的 “无 头 ”, 其 实 就 是 指 “ 无 界面 ", 因 此 PhantomJS 更 像 是 一 个 JavaScript 模拟 器 
而 不 是 一 个 “浏览 器 ”*”。 无 界面 带 来 的 好 处 是 性 能 上 的 提高 和 使 用 上 的 轻 量 , 但 缺点 
也 很 明显 ,由 于 无 界面 ,因此 用 户 无 法 实时 看 到 网 页 ,这 会 给 程序 的 开发 和 调试 造成 
一 定 的 影响 。PhantomJS 可 以 在 “http://phantomjs. org/” 访 问 下 载 ,由 于 无 界面 的 
特征 ,在 使 用 PhantomJS 时 Selenium 的 截图 保存 函数 browser. save_screenshot() 就 
显得 十 分 重要 了 。 
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4.3.3 PyVS8 与 Splash 


在 介绍 Py V8 之 前 ,读者 需要 先 认识 一 下 V8 引擎 。V8 是 一 款 基于 C++ 编写 的 
JavaScript 引擎 ,在 设计 之 初 是 考虑 到 JavaScript 的 应 用 愈 发 广泛 ,因此 需要 在 执行 
性 能 上 有 所 进步 。 在 Google 出 品 V8 后 ,其 被 迅速 应 用 到 了 包括 Chromium 在 内 的 
多 个 产品 中 ,受到 用 户 的 广泛 欢迎 。 粗 略 地 说 ,V8 引擎 就 是 一 个 能 够 用 来 执行 
JavaScript 的 运行 工具 ,既然 是 执行 JS 的 利器 ,只 要 配合 网 页 DOM 树 解析 ,在 理论 
上 能 够 当 作 一 个 浏览 器 来 使 用 。 为 了 在 Python 中 使 用 V8 引擎 ,用 户 需要 安装 
PyV8 JE CE JH pip 安装 ), 使 用 PyV8 执行 JavaScript 代码 的 方法 主要 是 使 用 
SContext 对 象 , 见 例 4-10。 

【 例 4-10] 使 用 PyV8 执行 JavaScript 代码 。 


import PyV8 
ct = PyV8. JSContext( ) 


ct.enter() 


func - ct. eval( 
"nn 


(function()( 
function hi(){ 
return "Hi!"; 
} 


return hi(); 


ww 


print(func()) # 输出 “Hi!” 


由 于 PyV8 只 能 单纯 地 提供 JS 执行 环境 ,无 法 与 实际 的 网 页 URL 对 接 ( 除 非 在 
脚本 基础 上 做 更 多 的 扩展 和 更 改 ) ,只 能 用 于 单纯 的 JS 执行 ,因此 比较 常见 的 使 用 方 
式 是 通过 分 析 网 页 代码 将 网 页 中 用 于 构造 JSON 数据 接口 的 JavaScript 语句 写 入 
Python 程序 中 ,利用 PyV8 执行 JS 并 获取 必要 的 信息 (比如 获取 JSON 数据 的 特定 
URL)。 换 句 话说 ,单纯 地 使 用 PyV8 并 不 能 直接 获得 最 终 的 网 页 元 素 信息 。 与 V8 
不 同 , Splash 是 一 个 专 为 JS 演 染 而 生 的 工具 (文档 可 见 “https://splash. 
readthedocs. io/en/stable/”) ,基于 Twisted 和 QT5 开发 的 Splash 为 用 户 提 供 了 
JavaScript 渲染 服务 ,同时 也 可 以 作为 一 个 轻 量 级 浏览 器 来 使 用 。 用 户 先 使 用 
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Docker 安装 Splash( 如 果 计 算 机 上 尚未 安装 Docker, 还 需要 先 安装 Docker 服务 ): 


docker pull scrapinghub/splash 


之 后 使 用 对 应 的 命令 来 


docker run — p 8050:8050 — p 5023:5023 scrapinghub/splash 


运行 后 会 出 现 类 似 图 4-18 的 输出 。 


docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash 

g opened. 

Splash version: 3.2 

Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 
Python 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] 
Open files limit: 1048576 

Can't bump open files limit 

Xvfb is started: ['Xvfb', ':1925382788', '-screen', '0', '1024x768x24' 


not set, defaulting to '/tmp/runtime-root' 
proxy profiles support is enabled, proxy profiles path: /etc/splash/pr 


verbosity=1 

slots-50 

argument cache max entries-500 

Web UI: enabled, Lua: enabled (sandbox: enabled) 

Server listening on 0.0.0.0:8050 

Site starting on 8050 

Starting factory «twisted.web.server.Site object at @x7f4ed4c957f@> 


图 4-18 运行 后 的 终端 输出 


此 时 打开 “http://localhost:8050” 即 可 看 到 Splash 自 带 的 Web UI, 见 图 4-19. 


Splash v3.2 


lash, args) 
Twisted ar 2 t o(args.url)) 


assert (splash:wait((-5)) 


( 
. = 5 html = splash:heml(), 
png = splashtpng(), 
^ har = splashibar(), 
L s} 


图 4-19 Splash 运 


后 的 界面 
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用 户 可 以 输入 携程 网 的 地 址 来 体验 一 下 ,由 图 4-20 可 见 Splash 提供 了 很 多 信 
息 , 包 括 界 面 截图 、 网 页 源 代码 等 。 


SEZ oa — RAR RENE | 


Splash Response: Object 
png: imago (png, 1024x768) dovnload 


5 RENCRER-INITLARNR "e 
* 2000x 31.xr A 426.0 


200 ok asie 631009 


图 4-20 利用 Splash 访问 携程 网 的 结果 
在 HAR data 中 可 以 看 到 泻 染 过 程 中 的 通信 情况 ,这 部 分 的 内 容 类 似 于 Chrome 
开发 者 工具 中 的 Network 模块 。 
使 用 Splash 服务 的 最 简单 方法 就 是 使 用 API 来 获取 泻 染 后 的 网 页 源 代码 ， 
Splash 提供 了 这 样 的 URL 来 访问 某 个 页 面 的 泻 染 结果 ,这 使 得 用 户 可 以 通过 
requests 来 获取 JavaScript 加 载 后 的 页 面 代码 ,而 非 原始 的 静态 源 代码 : 


http://localhost:8050/render. html?ur] = targeturl 


传递 一 个 特定 的 URL(targeturl) 给 该 接口 ,可 以 获得 页 面 泻 染 后 的 代码 ,还 可 以 
指定 等 待 时 间 ,确保 页 面 内 的 所 有 内 容 都 被 加 载 完 成 。 这 里 通过 京东 首页 的 例子 来 
具体 说 明 Splash 在 Python 抓 取 程序 中 的 用 法 , 见 例 4-11. 

【 例 4-11】 使 用 requests 直接 获取 京东 首页 的 活动 推荐 信息 。 
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import requests 
from bs4 import BeautifulSoup 


# url = 'http:// localhost : 8050 / render. htnl?url = https :// www. jd. com" 

url = 'https://www. jd. con' 

resp = requests. get(url) 

html = resp. text 

ht = BeautifulSoup( html) 

print (ht. find(id= 'J event lk').get('href')) # 根据 开发 者 工具 分 析 得 到 元 素 id 


上 面 的 程序 试图 访问 京东 商城 首页 并 获取 活动 推荐 信息 (图 4-21 中 的 深 色 区 
Jah) ,但 输出 结果 为 “AttributeError: 'NoneType' object has no attribute 'get'”, 这 是 
因为 该 元 素 是 JavaScript 加 载 的 动态 内 容 ,无 法 使 用 直接 访问 URL 获取 源 代码 的 形 
式 来 解析 。 如 果 将 URL 替换 为 “http://localhost:8050/render. html?url — https:// 
www. jd. com&.wait 二 5”, 即 使 用 Splash 服务 ,其 他 代码 不 变 , 最 终 得 到 的 输出 为 : 


//c - nfa. jd. com/adclick?keyStr = 6PQwtwh0f06syGHwQVvRO7 pzzm8GVdWoLPSzhvezmOUieGAQOEB4 
PPcsnv4tPllwbxK7wW7KflCBkRCmluYvOUnvdYZDppI + XkwTAYaaVUaxLOallmk2XglG8DTlI9Ea4fLWlv 
RBkxoM4QrINBB7LY7hQn2KQCvRIb1VTSHvkrdxrlZcSsjvXwtVY5sfkeNsjnSIFtrxkX4xkYbQvHViCGKnFt 
B6rhrxWOlMpkcMG5SoRUSOdb56zrttLfl8vNBFcptrOpoJNKZrfeMvuWRplv4bRbtDOshzWfMXyqdyOxyNrm 
P1wRDLNloYOLA46zk6YpGgD9f7DD80JI20BqrgiZA == &cv = 2. O&ur1 = //sale. jd. com/act/ePj4fdN51 
p6Snn. html 


访问 这 个 链接 ,用 户 便 能 看 到 活动 详情 ,说 明 抓 取 成 功 。 


Qua TA ENS 玩具 满 199 减 100 童装 跨 店 3 免 1 n í 
rm WELL SER REIS AEDS: MES. 3580 224 FANA er m 
, 二 R annie @ 
京东 


On tas pussa OH ERO RRES RRES i4 — £4M RRS 


图 4-21 京东 首页 的 活动 推荐 信息 
这 个 例子 说 明了 Splash 最 大 的 优点 : 提供 了 十 分 方便 的 JS 网 页 演 染 服务 ,提供 
了 简单 的 HTTP API, 而 且 由 于 不 需要 浏览 器 程序 .在 机 器 资源 上 不 会 有 太 大 的 浪 
费 ,和 Selenium 相 比 ,这 一 点 尤其 突出 。 最 后 要 说 明 的 是 ,Splash 的 执行 脚本 是 基于 
Lua 语言 编写 的 ,支持 用 户 自行 编辑 ,并 且 仍 然 可 以 通过 HTTP. API 的 方式 在 
Python 中 调用 ,因此 通过 execute 接口 (http://localhost:8050/execute?lua_source 一 ….) 
可 以 实现 很 多 更 复杂 的 网 页 解析 过 程 (与 页 面 元 素 进行 交互 而 非 单纯 地 获取 页 面 源 
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代码 ) ,能 够 极 大 地 提高 用 户 抓 取 的 灵活 性 ,用 户 可 访问 Splash 的 文档 做 更 多 的 了 
解 。 除 此 之 外 ,Splash 还 可 以 配合 Scrapy 框架 (Scrapy 框架 的 内 容 可 见 后 文 ) 进 行 抓 
取 ,在 这 方面 scrapy-splash(pip install scrapy-splash) 会 是 一 个 比较 好 的 辅助 工具 。 

GER] Lu 语言 是 主打 轻 量 \、 便 捷 的 谋 入 式 脚 本 编程 语言 ,基于 C 语言 编写 ， 
可 与 其 他 一 些 “ 重 量 级 "语言 配合 ,在 游戏 插件 开发 .C 程序 嵌入 编写 方面 都 有 着 广泛 
的 应 用 。 


4.4 本 章 小 结 


本 章 对 JavaScript 进行 了 简要 的 介绍 ,并 对 于 抓 取 JavaScript 页 面 数据 给 出 了 多 
种 不 同 的 参考 方案 ,对 AJAX 分 析 以 及 模拟 浏览 器 等 方面 进行 了 重点 阐释 。 在 实际 
应 用 中 ,用 户 很 难 不 碰 到 使 用 AJAX 的 网 页 ,因此 对 本 章 内 容 有 一 定 的 了 解 将 会 大 大 
有 利于 候 虫 程序 的 编写 。 
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表单 与 模拟 登录 


在 每 个 人 的 互联 网 生活 体验 中 ,浏览 网 页 都 是 最 为 重要 的 一 部 分 ,而 在 各 种 各 样 
的 网 页 中 ,有 一 类 网 站 页 面 是 基于 注册 /登录 功能 的 ,很 多 内 容 对 于 尚未 登录 的 游客 
并 不 开放 。 网 站 目前 的 趋势 是 ,各 种 网 站 都 在 朝 着 更 社交 、 更 注重 用 户 交互 的 方向 发 
展 ,因此 在 疏 虫 程序 的 编写 中 考虑 账号 登录 的 问题 就 显得 很 有 必要 。 对 于 这 部 分 要 
先 从 HTML 中 的 表单 说 起 ,本 章 使 用 大 家 熟悉 的 Python 语言 及 工具 来 探索 网 站 登 
录 这 一 主题 。 在 之 前 的 部 分 中 ,对 于 疏 虫 程序 基本 上 只 使 用 了 HTTP 中 的 GET 77 
法 ,在 本 章 将 注意 力主 要 放 在 POST 方法 上 。 


5.1 表单 


5.1.1 表单 与 POST 


在 之 前 的 疏 虫 程序 的 编写 中 LE d Ee AER E HH f. HTTP GET 操作 , 即 仅 
通过 程序 去 “ 读 ” 网 页 中 的 数据 ,但 每 个 人 在 实际 的 浏览 网 页 的 过 程 中 还 会 大 量 涉及 
HTTP POST 操作 。 表 单 (Form) 这 个 概念 往往 会 与 HTTP POST 联系 在 一 起 ,“ 表 
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单 ? 具 体 是 指 HTML 页 面 中 的 form 元 素 , 通 过 HTML 页 面 的 表单 发 送出 信息 是 最 
为 常见 的 与 网 站 服务 器 交互 的 方式 之 一 。 

这 里 以 登录 表单 为 例 , 访 问 Yahoo 网 站 的 登录 界面 ,使 用 Chrome 的 网 页 检查 工 
具 , 可 以 看 到 源 代码 中 十 分 明显 的 form 元 素 ( 见 图 5-1) ,注意 其 method 属性 为 
“post”, 即 该 表单 将 会 把 用 户 的 输入 通过 POST 发 送出 去 。 


</style> 


<link rel="icon" type-"image/x-icon" href="httos://s.vimg.coa/wn/login/favicon, ico"> 
<link reL^shertcut icon" types” inooe/ icon" href= Geese tnn let 
YAHOO! ia 
<link rel-"apple-touch-icon" href="httos://s, yima. com/wm/ Login/apn le-touch—icon, pm 
nk rel"apyle-toueh-iconpreconpesed” he Dist Lactit ce Ait Ra touch- 
TEST a 


off Line hide"-Network connect i 


isernane-country-code cci-dropdown- 
‘country-code-dropdown selected- 


‘country-code-dropdown country- 


name” id-"login-usernane" 
-apitalize="none” autocorrect 


/di 
Don't haue an acocunt? Sign up <P id-"usernmse-error^ class~"row error hide” rote="atert"></p= 


图 5-1 Yahoo 网 站 页 面 的 登录 表单 


除了 用 于 登录 的 表单 以 外 ,还 有 用 于 其 他 用 途 的 表单 ,而 且 网 页 中 表单 的 输入 
(字段 ) 信 息 也 不 一 定 必须 是 用 户 输入 的 文本 内 容 , 在 上 传 文件 时 用 户 也 会 用 到 表单 。 
以 图 床 网 站 为 例 , 这 种 网 站 的 主要 服务 就 是 在 线 存 储 图 片 ,用 户 上 传 本 地 图 片 文件 
后 ,由 服务 器 存储 并 提供 一 个 图 片 URL, 这 样 人 们 就 能 通过 该 URL 来 使 用 这 张 图 
片 。 这 里 使 用 SM. MS 图 床 进行 分 析 , 访 问 其 网 址 “https://sm. ms/”, 可 以 看 到 
Upload( 上 传 ) 按 钮 本 身 就 在 一 个 form 结 点 下 ,这 个 表单 发 送 的 数据 不 是 文本 数据 ， 
而 是 一 份 文件 , 见 图 5-2. 

在 待 上 传 区域 添 加 一 张 本 地 图 片 , 单 击 Upload 按钮 上 传 , 即 可 在 开发 者 工具 的 
Network 选项 卡 中 看 到 本 次 POST 的 一 些 详细 信息 , 见 图 5-3。 

需要 说 明 的 是 ,如 果 网 页 中 的 任务 只 是 向 服务 器 发 送 一 些 简单 信息 ,表单 还 可 以 
使 用 除 POST 之 外 的 方法 ,比如 HTTP GET。 一 般 而 言 ,如 果 使 用 HTTP GET 方法 
来 发 送 一 个 表单 ,那么 发 送 到 服务 器 的 信息 (一 般 是 文本 数据 ) 将 被 追加 到 URL 之 
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Image Upload 


5MB max per le. 10 fles max per request 


图 5-2 SM. MS 网 站 中 上 传 图 片 的 表单 


Fiter | C Hide data URLs 图 XHR JS CSS img Media Font Doc WS Manifest Other 
2000 ms 4000 ms 6000 ms 8000 ms 10000 ms 12000 
Name X Headers Preview Response Timing 
| | upload?inajax-1&ssi-1 General 
[o] loading-sm.gif Request URL: https://sm.ms/api/upload?inajax-1&sslel 


Request Method: POST 
Status Code: @ 200 

Remote Address: 127.0.0.1:1086 

Referrer Policy: no-referrer-when-downgrade 


v Response Headers 
access-control-allow-methods: OPTIONS, HEAD, GET, POST 
access-control-allow-origin: * 
allow: GET, POST, HEAD 
cache-control: no-store, no-cache, must-revalidate, post-check=0, pre-chec 
k= 


图 5-3 上 传 图 床 图 片 的 POST 信息 
中 ; 如 果 使 用 HTTP POST 请 求 , 发 送 的 信息 会 被 直接 放 和 人 HTTP 请 求 的 主体 里 。 
两 种 方式 的 特点 也 很 明显 ,使 用 GET 比较 简单 ,适用 于 发 送 的 信息 不 复杂 且 对 参数 
数据 安全 没有 要 求 的 情况 (很 难 想象 用 户 和 密码 作为 URL 中 追加 的 查询 字符 串 的 一 
部 分 被 发 送 ); 而 POST 更 像 是 “正规 ?的 表单 发 送 方式 ,用 于 文件 传送 的 multipart/ 
form-data 方式 也 只 支持 POST. 


5.1.2. 发 送 表 单数 据 


使 用 requests 库 中 的 post() 方 法 可 以 完成 简单 的 HTTP POST 操作 ,下 面 的 代 
码 就 是 一 个 最 基本 的 模板 s 
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import requests 
form data = ('username': 'user', 'password': 'password') 
resp = requests. post( 'http://website.com',data = form data) 


这 段 代码 将 字典 结构 的 form. data 作为 post() 方 法 的 data SR. requests 会 将 该 
数据 POST 至 对 应 的 URL(http://website. com) 。 虽 然 很 多 网 站 都 不 允许 非 人 类 用 
户 的 程序 (包括 普通 候 虫 程序 ) 来 发 送 登 录 表单 ,但 用 户 可 以 使 用 自己 在 该 网 站 上 的 
账号 信息 来 试 一 试 , 毕 竟 简 单 的 登录 表单 发 送 程序 也 不 会 对 网 站 造成 资源 压力 。 以 
lpoint3acres. com 论坛 为 例 , 访 问 其 网 站 (论坛 网 址 为 “http://www. lpoint3acres. 
com/ bbs/") ,通过 网 页 结构 分 析 可 以 发 现 , 用 户 登 录 表 单 的 主要 内 容 就 是 用 户 名 和 密 
码 ( 见 图 5-4) 。 


帐号 | 用 户 名 /Email Gaver zaen 
LI m Sign Up 注册 获取 更 多 干货 


jus | 申请 入 门 | 免 米 搜索 | 


搜 : Warald 英国 找 工作 定位 评估 申请 总 结 绿卡 移民 


hidden” nane"quichforvard® values"yes"> 
inst tines hiddas meraad ota saluni la 


图 5-4 lpoint3acres. com 的 登录 表单 结构 

对 于 这 种 结构 比较 简单 的 网 页 表单 ,用 户 可 以 通过 分 析 页 面 源 代 码 来 获取 其 字 
段 名 并 构造 自己 的 表单 数据 (主要 是 确定 表单 的 每 个 input 字段 的 name 属性 ,该 名 
称 对 应 着 表单 数据 被 提交 到 服务 器 后 的 变量 名 称 ) ,而 对 于 相对 比较 复杂 的 表单 È 
有 可 能 向 服务 器 提供 了 一 些 额 外 的 参数 数据 ,用 户 可 以 使 用 Chrome 开发 者 工具 的 
Network 界面 来 分 析 。 进 入 论坛 首页 ,打开 开发 者 工具 并 在 Network 工具 中 选中 
Preserve log 选项 (如 图 5-5 所 示 ) ,这 样 可 以 保证 在 页 面 刷 新 或 重 定向 时 不 会 清除 之 
前 的 监控 数据 ,接着 在 网 页 中 填写 自己 的 用 户 名 和 密码 并 单 击 “登录 ”按钮 ,用 户 很 容 
易 就 能 够 发 现 一 条 登录 的 POST 表单 记录 。 

根据 这 条 记录 ,首先 可 以 确定 POST 的 目标 URL 地 址 ,接着 需要 注意 的 是 
Request Headers 中 的 信息 ,其 中 的 User-Agent fi nf DAE Jy F8 P* Du Re h A d 
助 。 最 后 找到 Form Data 数据 ,其 中 的 字段 包括 username, password, quickforward, 
handlekey, 据 此 用 户 就 可 以 编写 自己 的 登录 表单 POST 程序 了 。 
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图 5-5 登录 的 POST 数据 
为 了 着 手 编写 这 个 针对 1point3acres. com 的 登录 程序 ,需要 先 引 入 requests 库 
中 的 Session 对 象 ,官方 文档 中 对 此 的 描述 为 "Session 会 话 对 象 让 你 能 够 跨 请 求 保持 
某 些 参 数 , 也 会 在 同一 个 Session 实例 发 出 的 所 有 请 求 之 间 保 持 Cookie 信息 ”, 因 此 ， 
如 果 用 户 使 用 Session 对 象 成 功 登 录 了 网 站 ,那么 访问 网 站 首页 应 该 会 获得 当前 账号 
的 信息 ,并 且 下 一 次 使 用 Session 仍然 记录 此 登录 状态 。 可 以 看 到 ,登录 后 的 网 页 项 
部 出 现 了 用 户头 像 信 息 ( 见 图 5-6) ,我 们 现在 就 将 这 次 模拟 登录 的 目标 设 为 获取 这 


头像 并 保存 在 本 地 。 
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图 5-6 ”网 页 中 的 用 户 账号 信息 


(E Chrome 来 分 析 网 页 源 代码 ,会 发 现 该 头像 图 片 是 在 < div class— "avt y"> 元 


素 中 , 据 此 可 以 完成 这 个 简单 的 头像 下 载 程序 , 见 例 5-1。 
【 例 5-1) 使 用 表单 POST 来 登录 1point3acres. com 网 站 。 


import requests 
from bs4 import BeautifulSoup 


headers - ( 
‘User — Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) 


'"AppleWebKit/537.36 (KHIML, like Gecko) Chrome/66.0.3359.139 Safari/537.36') 
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form data- ('username': 'yourname', # 用 户 名 
'password': 'yourpw', + 密码 
'quickforward': 'yes', + 对 普通 用 户 隐藏 的 字段 ,该 值 不 需要 用 户主 动 设 定 
'handlekey': "ls') E 对 普通 用 户 隐藏 的 字段, 该 值 不 需要 用 户主 动 设 定 


session = requests. Session( ) # 使 用 requests 的 Session 来 保持 会 话 状态 

session. post( 

"http://www. 1point3acres. com/bbs/member. php? mod = logging&action = login&loginsubmit = 

yes&infloat = yes&lssubmit = yes&inajax = 1', headers = headers, data = form data) 

resp = session. get( "http://www. 1point3acres. com/bbs/'). text 

ht = BeautifulSoup(resp, 'lxml') * 根据 访问 得 到 的 网 页 数据 建立 BeautifulSoup 对 象 

cds = ht. find('div', ('class': 'avt y'}).findChildren() # 获取 "< div class = "avt y"> 元 素 结 
# 点 下 的 孩子 元 素 " 

print(cds) 

# 获取 ing src 中 的 图 片 地 址 

img src links = [one. find('img')['src'] for one in cds if one.find('img') is not None] 


for src in img src links: 
img content = session. get(src). content 
src= src.lstrip('http://').replace(r'/', '- ') # 将 图 片 地 址 稍 作 处 理 并 作为 文件 各 
with open( '{src}. jpg'. format_map(vars()), 'wb+') as f: 
f.write(img content) # 写 人 文件 


在 上 述 程 序 中 ,对 于 BeautifulSoup 和 requests 用 户 已 经 非常 熟悉 了 ,需要 稍 作 
说 明 的 是 打开 JPG 文件 路 径 的 这 段 代码 : 


with open( '{src}. jpg’. format_map(vars()), 'wb+ ') as f: 


其 中 ,format_map() 方 法 与 format( ** mapping) 等 效 ,而 vars() 函 数 是 Python 中 的 
一 个 内 置 函 数 , 它 会 返回 一 个 保存 了 对 象 的 属性 -属性 值 键 值 对 的 字典 ,在 不 接受 其 
他 参数 时 也 可 以 使 用 locals() 来 替换 这 里 的 varsO ,将 会 实现 同样 的 功能 。 除 此 之 
外 ,如 果 用 户 需要 知道 提交 表单 后 网 页 的 响应 地 址 ,可 以 通过 网 页 中 form 元 素 的 
action 属性 分 析 得 到 。 

执行 程序 后 ,在 本 地 就 能 够 看 到 下 载 完成 后 的 头像 图 片 ,如果 用 户 没有 成 功 进 
登录 状态 ,网 站 将 不 会 在 首页 显示 用 户 的 这 个 头像 ,因此 看 到 这 张 图 片 也 说 明 用 户 的 
登录 模拟 已 经 成 功 。 为 了 在 本 地 成 功 运行 ,在 运行 上 述 代码 之 前 需要 将 其 中 的 账号 
信息 设置 为 自己 的 用 户 名 和 密码 。 

值得 一 提 的 是 ,有 些 表单 会 包含 一 些 单 选 框 、 多 选 框 等 内 容 ( 见 图 5-7) ,其 实 分 析 
其 本 质 仍然 是 简单 的 字段 名 :字段 值 结构 , 仍 然 可 以 使 用 上 述 类 似 的 方法 进行 GET. 
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和 了 POST 操作 。 获 取 这 些 信息 的 最 佳 方式 就 是 打开 Network 并 尝试 提交 一 次 表单 ， 
观察 一 条 Form Data 的 记录 。 


Example 


PHP Form Validation Example 
* required field 

Name: name 

E-mail: mai@mailcom . 


Website: 


Comment: 1 


Gender: © Female @ Male ^ Other * 


Submit 


Your Input: 


name 
mail@mail.com 


male 


图 5-7 一 个 具有 单 选 框 的 表单 示例 (“ 单 选 框 "实际 上 是 radio 类 型 元 素 ) 


5.2 Cookie 


5.2.1 什么 是 Cookie 


很 多 人 可 能 有 这 样 的 经 历 ,在 清除 浏览 器 的 历史 记录 数据 时 会 碰 到 一 个 关于 
Cookies 数据 的 选项 ( 见 图 5-8) ,对 于 那些 对 Web 开发 不 太 了 解 的 用 户 而 言 , 这 个 所 
谓 的 “Cookies” 可 能 是 非常 令 人 疑惑 的 .从 字面 意思 上 完全 看 不 出 它 的 功能 。 
“Cookie” 的 本 意 是 指 曲 奇 饼干 ,在 Web 技术 中 则 是 指 网 站 方 为 了 一 定 的 目的 而 存储 
在 用 户 本 地 的 数据 ,如 果 要 细 分 ,可 以 分 为 非 持久 的 Cookie 和 持久 的 Cookie. 

Cookie 的 诞生 来 源 于 HTTP 协议 本 身 的 一 个 小 问题 ,因为 仅仅 通过 HTTP 协 
议 , 服 务 器 (网 站 方 ) 无 法 辨别 用 户 ( 浏 览 器 使 用 者 ) 的 身份 。 换 句 话 说 ,服务 器 并 不 能 
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图 5-8 Chrome 中 的 清除 历史 记录 选项 

获知 两 次 请 求 是 否 来 自 同一 个 浏览 器 ,也 就 不 能 获知 用 户 的 上 一 次 请 求 信息 。 解 决 
这 个 小 问题 倒 也 不 难 , 最 简单 的 方法 就 是 在 页 面 中 加 入 某 个 独特 的 参数 数据 (一 般 叫 
"token") ,在 下 一 次 请 求 时 向 服务 器 提供 这 个 token。 为 了 达到 这 个 效果 ,网 站 方 可 
能 需要 在 网 页 的 表单 中 加 入 一 个 针对 用 户 的 token 字段 ,或 者 是 直接 在 URL 中 加 入 
token, 类 似 用 户 在 很 多 URL query 查询 链接 中 所 看 到 的 情况 (这 种 "更 改 "URL 的 方 
式 , 在 用 于 标识 用 户 访问 的 时 候 也 称 为 URL HS). Cookie 是 更 为 精巧 的 一 种 解决 
方案 ,在 用 户 访问 网 站 时 ,服务 器 通过 浏览 器 以 一 定 的 规则 和 格式 在 用 户 本 地 存储 一 
小 段 数据 (一 般 是 一 个 文本 文件 ), 之 后 如 果 用 户 继续 访问 该 网 站 ,浏览 器 将 会 把 
Cookie 数据 也 发 送 到 服务 器 端 , 网 站 得 以 通过 该 数据 来 识别 用 户 ( 浏 览 器 )。 更 概括 
地 说 ,Cookie 就 是 保持 和 跟踪 用 户 浏览 网 站 时 的 状态 的 一 种 工具 。 

关于 Cookie, 一 个 最 为 普遍 的 场景 就 是 “保持 登录 状态 ”, 在 那些 需要 用 户 输入 用 
户 名 和 密码 进行 登录 的 网 站 中 往往 会 有 一 个 “下 次 自动 登录 ”选项 。 图 5-9 即 为 百度 
的 用 户 登录 页 ,如 果 用 户 选 中 “下 次 自动 登录 ”选项 , 则 下 次 (比如 关闭 这 个 浏览 器 , 然 
后 重新 打开 ) 访 问 网 站 ,用 户 会 发 现 自己 仍然 是 登录 后 的 状态 。 在 第 一 次 登录 时 , 服 
务 器 会 把 包含 了 经 过 加 密 的 登录 信息 作为 Cookie 保存 到 用 户 本 地 (硬盘 ) ,在 进行 新 
的 一 次 访问 时 ,如 果 Cookie 中 的 信息 尚未 过 期 (网 站 会 设 定 登录 信息 的 过 期 时 间 )， 
网 站 收 到 了 这 一 份 Cookie 就 会 自动 为 用 户 进行 登录 。 

【提示 】 Cookie 和 Session 不 是 一 个 概念 ,Cookie 数据 保存 在 本 地 (客户 端 )， 
Session 数据 保存 在 服务 器 (网 站 方 )。 一 般 而 言 ,Session 是 指 抽象 的 客户 端 -服务 器 
端 交 互 状态 (因此 往往 被 翻译 成 “会 话 ”), 其 作用 是 “跟踪 ”状态 ,比如 保持 用 户 在 电 商 
网 站 加 入 购物 车 的 商品 信息 ,而 Cookie 这 时 就 可 以 作为 Session 的 一 个 具体 实现 手 
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图 5-9 百度 的 登录 界面 


段 , 在 Cookie 中 设置 一 个 标明 Session 的 Session ID。 
具体 到 发 送 Cookie 的 过 程 , 浏 览 器 一 般 把 Cookie 数据 放 在 HTTP 请 求 的 
Header 数据 中 ,由 于 增加 了 网 络 流量 ,也 招致 了 一 些 人 对 Cookie 的 批评 。 另 外 ,由 于 


Cookie 中 包含 了 一 


些 敏感 信息 ,容易 成 为 网 络 攻击 的 目标 ,在 XSS 攻击 ( 跨 网 站 指令 


攻击 ) 中 ,黑客 往往 会 尝试 对 Cookie 数据 进行 窃取 。 


5.2.2 在 Python 中 使 用 Cookie 


Python 提供 了 Cookielib 库 来 对 Cookie 数据 进行 简单 的 处 理 ( 在 Python 3 中 为 
http. cookiejar 库 ) ,这 个 模块 里 主要 的 类 有 CookieJar, FileCookieJar、 MozillaCookieJar、 


LWPCookieJar 等 。 


在 源 代码 注释 中 特意 说 明了 这 些 类 之 间 的 继承 关系 , 见 图 5-10。 
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5-10 各 类 CookieJar 的 关系 
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除了 cookiejar 模块 ,在 抓 取 程序 的 编写 中 使 用 更 为 广泛 的 是 requests 的 Cookie 
功能 (实际 上 requests. cookie 模块 中 的 RequestsCookieJar 类 就 是 一 种 CookieJar 的 
继承 ) ,可 以 将 字典 结构 信息 作为 Cookie 伴随 一 次 请 求 来 发 送 : 


import requests 
cookies = ( 
'cookiefiledl': 'valuel', 
'cookiefiled2': 'value2', 
# 更 多 Cookie 信息 
} 
headers = { 
"User — Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 9 4) AppleWebKit/537. 36 (KHTML, 
like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
} 
url = 'https: //www. douban. com’ 
requests. get(url, cookies = cookies, headers = headers) # 在 get() 方 法 中 加 入 Cookie 信息 


上 文 提 到 ,Session 可 以 帮助 用 户 保持 会 话 状 态 , 用 户 可 以 通过 这 个 对 象 来 获取 


Cookie: 


import requests 
import requests. cookies 


headers = ( 
‘User — Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) ' 
"AppleWebKit/537.36 (KHIML, like Gecko) Chrome/66.0.3359.139 Safari/537.36') 
form data = ('username': 'yourname', + 用 户 名 
'password': 'yourpw', # 密码 
'quickforward': 'yes', # XE JH P? KARK hY BE, AAAS AG BEA EE 
‘handlekey': "1s'] # 对 普通 用 户 隐 藏 的 字段 ,该 值 不 需要 用 户主 动 设 定 


sess = requests. Session() # 使 用 requests 的 Session 来 保持 会 话 状 态 

sess. post( 

"http://www. 1point3acres. com/bbs/member. php? mod = logging&action = login&loginsubmit = 
yes&infloat = yes&lssubmit = yes&inajax = 1', headers = headers, data = form data) 


print(sess.cookies) * 获取 当前 Session 的 Cookie 信息 
print(type(sess. cookies)) * 输出 : «class 'requests. cookies. RequestsCookieJar '> 


用 户 还 可 以 借助 requests. util 模块 中 的 函数 实现 一 个 包含 了 Cookie 存储 和 
Cookie 加 载 双 向 功能 的 怜 虫 类 模板 : 
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import requests 
import pickle 


class CookieSpider: 
# 实现 了 基于 requests 的 Cookie FF ti RU EIU fe h BAR 
cookie file- "' 


def init (self, cookie file): 
self. initial() 
self.cookie file- cookie file 


def initial(self): 
self. sess = requests. Session() 


def save cookie(self): 
with open(self.cookie file, 'w') as f: 
pickle.dump(requests.utils.dict from cookiejar( # dict from cookiejar turn a 
# cookiejar object to dict 
self. sess. cookies), f 


) 


def load cookie(self): 
with open(self.cookie file) as f: 
self. sess. cookies = requests.utils.cookiejar from dict( # cookiejar from dict 
# turn a dict intoa 
* cookiejar 
pickle. load(f) 
) 


5.3 ”模拟 登录 网 站 


5.3.1 分 析 网 站 


以 国内 著名 的 问答 社区 网 站 “ 知 乎 "(www. zhihu. com) 为 例 ,下 面试 图 通过 
Python 编写 一 个 程序 来 模拟 对 知 乎 的 登录 。 首 先 手动 访问 其 首页 并 登录 ,进入 用 户 
后 台 界 面 后 可 以 看 到 这 里 有 “基本 资料 ”选项 卡 ,其 中 比较 重要 的 信息 包括 用 户 名 ,个 
性 域名 等 ,详情 见 图 5-11。 

接 下 来 ,为 了 获得 知 乎 Cookies 的 字段 信息 ,打开 Chrome 开发 者 工具 的 


(=) Python ge k RE 


基本 资料 帐号 和 密码 消息 和 邮件 B 


用 户 名 T 于 天后 可 以 修改 姓名 
个 性 域名 zhihucorypeopler 友 了 


隐私 保护 D 在 站 外 搜 到 我 在 知 乎 创作 的 内 容 时 ， 我 的 用 户 名 将 不 会 被 显示 
什么 情况 下 应 该 使 用 这 个 选项 ? 


图 5-11 知 乎 后 台 的 “基本 资料 "界面 
Application 选项 卡 ,在 Storage (存储) 下 的 Cookies 选项 中 就 能 够 看 到 当前 网 站 的 
Cookies 信息 ,Name 和 Value 分 别 是 字段 名 和 值 ,如 图 5-12 所 示 。 


(X GJ | Elements Console Sources Network| 
Application | C G X Fiter 
lli Manifest Name 
X Service Workers. — DAYU PP 
Bi Clear storage 一 utma 
一 utmc 
Storage —utmv 
> 88 Local Storage 一 utmz 
> 35 Session Storage xst 
© IndexedDB. | -zap 
& web SQL aliyungf tc 
v @ Cookies | dco 
act 
| zc0 
Cache 
© Cache Storage 
88 Application Cache 
Frames 
* 口 top 


图 5-12 查看 知 乎 Cookies 的 字段 内 容 

可 以 设想 一 下 模拟 登录 的 基本 思路 ,第 一 种 就 是 直接 在 怜 虫 程序 中 提交 表单 (用 
户 名 和 密码 等 ) ,通过 requests 的 Session 来 保持 会 话 ,成 功 进 行 登录 ,用 户 在 之 前 登 
录 1point3acres. com 就 是 用 了 这 种 思路 ; 第 二 种 则 是 通过 浏览 器 进行 辅助 , 先 通 过 
一 次 手动 登录 来 获取 并 保存 Cookie, 在 之 后 的 抓 取 或 者 访问 中 直接 加 载 保存 了 的 
Cookie, 使 得 网 站 方 “认为 ”用户 已 经 登录 。 显 然 ,第 二 种 方法 在 应 对 一 些 登 录 过 程 比 
较 复杂 (尤其 是 登录 表单 复杂 且 存 在 验证 码 ) 的 情况 时 比较 合适 。 从 理论 上 说 ,只 要 
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本 地 的 Cookie 信息 仍 在 未 过 期 期 限 内 ,就 一 直 能 够 模拟 出 登录 状态 。 再 想象 一 下 ， 
其 实 无 论 是 通过 模拟 浏览 器 还 是 其 他 方法 ,只 要 用 户 能 够 成 功 还 原 出 登录 后 的 
Cookie 状态 ,那么 模拟 登录 状态 就 不 再 困难 了 。 


5.3.2 通过 Cookie 模拟 登录 


根据 上 面 讨 论 的 第 二 种 思路 , 即 可 着 手 利用 Selenium 模拟 浏览 器 来 保存 知 乎 登 
录 后 的 Cookie 信息 。 对 于 Selenium 的 相关 使 用 之 前 已 经 介绍 过 ,这 里 需要 考虑 的 是 
如 何 保存 Cookie, 一 种 比较 简便 的 方法 是 通过 webdriver 对 象 的 get_cookies() 方 法 
在 内 存 中 获得 Cookie, 接 着 用 pickle 工具 保存 到 文件 中 , 见 例 5-2。 

【 例 5-2】 使 用 Selenium 保存 知 乎 登录 后 的 Cookie 信息 。 


import selenium. webdriver 
import pickle, time, os 


class SeleZhihu(): 
.path of chromedriver - 'chromedriver' 
browser - None 
url homepage = 'https://www. zhihu. com/* 
_cookies_ file- 'zhihu- cookies. pkl' 
.header data = ('Accept': 'text/html, application/xhtml + xml, application/xml;q = 0.9, 
image/webp, * / * ;q=0.8', 
‘Accept - Encoding’: 'gzip, deflate, sdch, br', 
‘Accept — Language’: 'zh- CN, zh;q=0.8', 
‘Connection’: 'keep— alive’, 
"Cache - Control': 'max- age=0', 
"Upgrade - Insecure - Requests': '1', 
‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
) 


def init (self): 
self. initial() 


def initial(self): 
self. browser = selenium. webdriver.Chrome(self. path of chromedriver) 
self. browser.get(self. url homepage) 


if self.have cookies or not(): 
self.load cookies() 
else: 
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print( Login first') 
time. sleep(30) 
self. save_cookies() 


print( 'We are here now’) 


def have cookies or not(self): 
if os.path.exists(self. cookies file): 
return True 
else: 
return False 


def save cookies(self): 
pickle.dump(self. browser.get cookies(), open(self. cookies file, "wb")) 
print("Save Cookies successfully!") 


def load cookies(self): 
self. browser.get(self. url homepage) 
cookies = pickle.load(open(self. cookies file, "rb")) 
for cookie in cookies: 
self. browser.add cookie(cookie) 
print("Load Cookies successfully!") 


def get page by url(self, url): 
self. browser.get(url) 


def quit browser(self): 
self. browser.quit() 


if name  -- ' main ': 
zh = SeleZhihu() 
zh.get page by url('https://www. zhihu. com/') 


time. sleep(10) 
zh.quit browser() 


运行 上 面 的 程序 ,将 会 打开 Chrome 浏览 器 ,如 果 此 前 没有 本 地 Cookie 信息 ,将 
会 提示 用 户 “Login first" ,并 等 待 30 秒 ,在 此 期 间 用 户 需要 手动 输入 用 户 名 和 密码 等 
信息 ,执行 登录 操作 ,之 后 程序 将 会 自行 存储 登录 成 功 后 的 Cookie 信息 。 本 例 还 为 
这 个 SeleZhihu 类 添加 了 load_cookies() 方 法 ,在 之 后 访问 网 站 时 ,如 果 发 现 本 地 已 经 
存在 了 Cookie 信息 文件 就 直接 加 载 。 这 个 逻辑 主要 通过 initial ) 方 法 来 实现 ,而 
initial() 方 法 会 在 _init _〈) 中 调用 。__init __() 是 所 谓 的 “初始 化 函数, 类似 于 
C++ 中 的 构造 函数 ,会 在 类 的 实例 初始 化 时 被 调用 。'zhihu-cookies. pkl' 是 本 地 的 
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Cookie 信息 文件 名 ,使 用 pickle 序列 化 保存 ,对 于 这 方面 的 详细 内 容 请 参看 第 3 章 。 
在 保存 过 Cookie 之 后 ,用 户 就 可 以 “移花接木 "了 .“ 移 花 接 木 ? 就 是 将 Selenium 
为 用 户 保存 的 Cookie 信息 拿 到 其 他 工具 中 (比如 requests) 使 用 ,毕竟 Selenium 模拟 
浏览 器 的 抓 取 效率 十 分 低下 , 且 性 能 也 成 问题 。 使 用 requests 加 载 本 地 的 Cookie, Jf 
通过 解析 网 页 元 素来 获取 个 性 域名 ,如 果 模 拟 登录 成 功 ,用 户 就 能 够 看 到 对 应 的 域名 
信息 ,关于 这 部 分 的 程序 见 例 5-3。 
【 例 5-3] 使 用 requests 加 载 Cookie, 进 入 知 乎 登录 状态 并 抓 取 个 性 域名 。 


import requests, pickle 
from bs4 import BeautifulSoup 
from pprint import pprint 


headers = { 
"User — Agent’: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) ' 
"AppleWebKit/537.36 (KHIML, like Gecko) Chrome/66.0.3359.139 Safari/537.36') 
sess = requests. Session() 
with open( 'zhihu- cookies.pkl', 'rb') as f: 
cookie data = pickle. load(f) * 加 载 Cookie 信息 


for cookie in cookie data: 
sess. cookies. set(cookie['name'], cookie['value']) + 为 Session 设置 Cookie 信息 


res = sess. get( 'https: //www. zhihu. com/settings/profile', headers = headers). text 
+ 访问 并 获得 页 面 信息 
ht = BeautifulSoup(res, 'lxml') 
# pprint(ht) 
node = ht. find('div', ('id': 'js- url- preview'}) 
print (node. text) 


运行 程序 后 ,如 果 顺 利 , 用 户 将 会 看 到 个 性 域名 的 输出 。 该 程序 的 抓 取 目标 相对 
比较 简单 ,“https://www. zhihu. com/settings/profile” 这 个 地 址 所 对 应 的 网 页 也 没 
有 使 用 大 量 动态 内 容 ( 指 那些 经 过 JS 刷新 或 更 改 的 页 面 元 素 ) ,如果 想 要 抓 取 其 他 页 
面 , 在 保持 模拟 登录 机 制 的 基础 上 改进 抓 取 机 制 即 可 ,用 户 可 以 结合 第 4 章 的 内 容 进 
行 更 复杂 的 抓 取 。 关 于 结合 实际 网 站 的 模拟 登录 程序 ,可 见 第 11 章 豆瓣 登录 的 相关 
内 容 。 

最 后 要 提 到 的 是 处 理 HTTP 基本 认证 (HTTP Basic Access Authentication) 的 
情形 ,这 种 验证 用 户 身 份 的 方式 一 般 不 会 在 公开 的 商业 性 网 站 上 使 用 ,但 在 公司 内 网 
或 者 一 些 面向 开发 者 的 网 页 API 中 较为 常见 ,与 目前 普遍 的 通过 表单 提交 登录 信息 
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的 方式 不 同 ,HTTP 基本 认证 会 使 浏览 器 弹出 要 求 用 户 输入 用 户 名 和 口令 (密码 ) 的 
窗口 ,并 根据 输入 的 信息 进行 身份 验证 。 这 里 通过 一 个 例子 来 说 明 这 个 概念 ， 
“https://www. httpwatch. com/httpgallery/authentication/” 提 供 了 一 个 HTTP 基 
本 认证 的 示例 ( 见 图 5-13) ,需要 用 户 输入 用 户 名 “httpwatch” 作 为 Username, 并 输入 
一 个 自 定义 的 密码 作为 Password, 单 击 Sign in 按钮 登录 后 ,将 会 显示 一 个 包含 了 之 
前 输入 信息 的 图 片 。 通 过 检查 元 素 可 以 得 知 , 该 认证 的 URL 地 址 为 “https://www. 
httpwatch. com/httpgallery/authentication/authenticatedimage/default. aspx”, 根据 
以 上 信息 ,用 户 通 过 requests. auth 模块 中 的 HTTPBasicAuth 类 即 可 通过 该 认证 并 
下 载 最 终 显示 的 图 片 到 本 地 , 见 例 5-4。 


€ retry the request with an 
A Sign in 


https:/www.httpwatch.com 


Username | | | 


Password | 


T Cic EIN İs case Basic) followed by the 

u, - —— -— MY= may look encrypted it is simply 
a base64 encoded version of <username>:<password>. In this example, the un-encoded string 
"httpwatch:foo" was used and would be readily available to anyone who could intercept the HTTP. 
request. 


Example 10 


Clicking the Display Image button will attempt to access an image file that uses HTTP Basic 
Authentication. You will need to enter httpwatch as the username and a different password 
every time you access the image: 


Authenticated Image: 


图 5-13 ”基本 认证 的 界面 ,需要 输入 Username 和 Password 


【 例 5-4] 使 用 requests 通过 HTTP 基本 认证 并 下 载 图 片 。 


import requests 
from requests.auth import HTTPBasicAuth 


url = 'https://www. httpwatch. com/httpgallery/authentication/authenticatedimage/default. aspx' 
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auth = HTTPBasicAuth('httpwatch', 'pw123') + 将 用 户 名 和 密码 作为 对 条 初始 化 的 参数 
resp = requests.post(url, auth- auth) 


with open( 'auth- image. jpeg', wb') as f: 
f.write(resp.content) 
运行 程序 后 ,用 户 即 可 在 本 地 看 到 auth-image. jpeg 图 片 ( 见 图 5-14) ,说 明成 功 
使 用 程序 通过 了 验证 。 


图 5-14 下 载 到 本 地 的 图 片 


5.4 验证 码 


5.4.1. 图 片 验证 码 


弄 明白 模拟 表单 提交 和 使 用 Cookie 可 以 说 解决 了 登录 问题 的 主要 难点 ,但 目前 
的 网 站 在 验证 用 户 身份 这 个 问题 上 总 是 精益 求 精 , 不 惜 下 大 力气 防范 非 人 类 的 访问 ， 
对 于 大 型 商业 性 网 站 而 言 尤其 如 此 一 一 最 大 的 障碍 在 于 验证 码 , 毫 不 夸张 地 说 ,验证 
码 问题 始终 是 程序 模拟 登录 过 程 中 让 人 最 为 头疼 的 一 环 ,也 可 能 是 所 有 息 虫 程序 所 
要 面 对 的 最 大 问题 之 一 。 人 们 在 日 常生 活 中 总 会 碰 到 要 求 输入 验证 码 的 情况 ,从 某 
种 意义 上 来 说 ,验证 码 其 实 是 一 种 图 灵 测 试 ,这 从 它 的 英文 名 (CAPTCHA) 的 全 称 


» 


"Completely Automated Public Turing test to tell Computers and Humans Apart 
(完全 自动 化 地 将 计算 机 与 人 类 分 辨 开 来 的 公开 图 灵 测 试 ) 就 能 看 出 来 。 从 之 前 模拟 
知 乎 登录 的 过 程 中 可 以 看 到 ,用 户 可 以 通过 手动 登录 并 加 载 Cookie 的 方式 “ 避 开 ” 验 
证 码 (只 是 抓 取 程 序 避 开 了 验证 码 , 开 发 者 实际 上 并 未 真正 * 避 开 ”, 毕 竟 还 需要 手动 
输入 验证 码 ) ,另外 , 巾 于 验证 码 形 式 多 变 、 网 站 页 面 结构 各 异 , 试 图 用 程序 全 自动 破 
解 验 证 码 的 投入 产 出 比 确实 太 大 ,因此 处 理 验 证 码 的 确 十 分 棘手 。 考 虑 到 攻克 验证 
码 始终 是 爬虫 程序 开发 中 的 一 个 重要 问题 ,在 这 里 简要 介绍 一 下 处 理 验 证 码 的 种 种 
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思路 。 
图 片 验证 码 ( 从 狭义 上 说 就 是 一 类 图 片 中 存在 字母 或 数字 ,需要 用 户 输入 对 应 文 
字 的 验证 方式 ) 是 比较 简单 的 一 类 验证 码 ( 见 图 5-150. 


Please enter the following text to the box below to continue. 


dfw8hp 


图 5-15 典型 的 图 片 验证 码 


在 疏 虫 程序 中 对 付 这 样 的 验证 码 一 般 会 有 几 种 不 同 的 思路 ,一 是 通过 程序 识别 
图 片 ,转换 为 文字 并 输入 ; 二 是 手动 打 码 ,等 于 直接 避 开 程序 破解 验证 码 的 环节 ; 三 
是 使 用 一 些 人 工 打 码 平台 的 服务 。 有 关 处 理 图 片 验 证 码 这 方面 的 讨论 很 多 ,下 面 对 
这 几 种 方式 分 别 做 简要 的 介绍 。 

首先 是 识别 图 片 并 转换 到 文字 的 思路 ,传统 上 这 种 方式 会 借助 OCR (文字 光学 
识别 ) 技 术 ,步骤 包括 对 图 像 进行 降 噪 .二 值 化 分割 和 识别 ,这 要 求 验证 码 图 片 的 复 
杂 度 不 高 ,否则 很 可 能 识别 失败 。 近 年 来 随 着 机 器 学 习 技 术 的 发 展 ,目前 这 种 图 片 转 
文字 的 方式 拥有 了 更 多 的 可 能 性 ,比如 使 用 卷 积 神经 网 络 (CNN) ,只 要 用 户 手头 拥有 
足够 多 的 训练 数据 ,通过 训练 神经 网 络 模型 就 能 够 实现 很 高 的 验证 码 识别 准确 度 。 

手动 打 码 是 指 在 验证 码 出 现时 通过 解析 网 页 元 素 的 方式 将 验证 码 图 片 下 载 下 
来 ,由 开发 者 自行 输入 验证 码 内 容 , 通 过 编写 好 的 函数 填 人 对 应 的 表单 字段 中 (或 者 
是 网 站 对 应 的 HTTP APD ,从 而 完成 后 续 抓 取 工 作 。 这 种 方式 最 为 简单 ,在 开发 中 
也 最 为 常用 ,优点 是 完全 没有 经 济 成 本 ,但 其 缺点 也 很 突出 , 即 需要 开发 者 自身 劳动 ， 
自动 化 程度 低 。 不 过 ,如 果 只 是 应 对 登录 情形 ,配合 Cookie 数据 的 使 用 ,可 以 做 到 
“ 毕 其 功 于 一 役 ” ,用户 初 次 登录 填写 验证 码 后 在 一 段 时 间 内 便 可 以 摆脱 验证 码 的 
烦恼 。 

使 用 人 工 打 码 服务 则 是 直接 将 验证 码 识 别 的 任务 “外 包 ” 到 第 三 方 服务 ,图 5-16 
为 某 人 工 打 码 平台 ,在 实际 使 用 中 ,除非 遇 到 需要 频繁 通过 验证 的 情形 ,对 这 种 打 码 
服务 的 需求 不 大 ,有 一 些 打 码 平 台 开 放 了 免费 打 码 的 API( 一 般 会 有 使 用 次 数 和 频率 
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的 限制 ), 可 以 用 来 在 抓 取 程序 中 进行 调用 ,满足 调试 和 开发 的 需要 。 


te u- a: 最 专 平台 Lap 


gm D DM MERC MEE Ie 


现在 起 充值 500 赠 送 10%， 大 用 户 各 


周年 庆 妖 全 新 改 有 — 


活动 时 间 : 2015 年 05 月 8 日 起 


图 5-16 ” 某 人 工 验证 码 打 码 服务 平台 


5.4.2 滑动 验证 


与 图 片 验 证 码 不 同 ,目前 被 广泛 使 用 的 滑动 验证 不 仅 需 要 验证 用 户 的 视觉 能 力 ， 
还 会 通过 要 求 拖 忠 元 素 的 方式 防止 验证 关卡 被 暴力 破解 ( 见 图 5-17)。 对 于 这 类 滑动 
验证 码 ,其 实 也 存在 通过 程序 进行 破解 的 方式 ,基本 思路 就 是 通过 模拟 浏览 器 来 实现 
对 拖 电 元 素 的 自动 拖 动 , 尽 可 能 模仿 人 类 用 户 的 拖 动 行为 “欺骗 ”验证 。 这 种 方式 可 
以 分 为 几 个 主要 的 步骤 : 获取 验证 码 图 像 : @ 获 取 背 景 图 片 与 缺失 部 分 ; OH 
滑动 距离 ; @ 操 纵 浏 览 器 进行 滑动 ; @ 等 待 验证 完成 。 这 里 主要 存在 两 个 难点 ,其 一 
是 如 何 获得 背景 图 片 与 缺失 部 分 轮廓 ,背景 图 片 往往 是 由 一 组 剪 切 后 的 小 图 拼接 而 
成 ,因此 在 程序 抓 取 元 素 的 过 程 中 可 能 需要 使 用 PIL 库 做 更 复杂 的 拼接 等 工作 ; 其 
二 是 模拟 人 类 的 滑动 动作 ,过 于 机 械 式 的 滑动 (比如 严格 的 匀速 滑动 或 加 速度 不 变 的 
滑动 ) 可 能 会 被 系统 识别 为 机 器 人 。 
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图 5-17 某 滑动 验证 服务 
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假设 用 户 需要 登录 某 个 网 站 ,很 可 能 需要 在 输入 用 户 名 和 密码 后 通过 这 种 类 似 
的 滑动 验证 。 针 对 这 种 情况 ,可 以 编写 一 个 综合 了 上 述 步骤 的 模拟 完成 滑动 验证 的 
程序 , 见 例 5-5。 

【 例 5-5] 以 Selenium 模拟 浏览 器 方式 通过 滑动 验证 的 示例 。 


# 模拟 浏览 器 通过 滑动 验证 的 程序 示例 ,目标 是 在 登录 时 通过 滑动 验证 
import time 

from selenium import webdriver 

from selenium, webdriver import ActionChains 

from PIL import Image 


def get screenshot( browser): 
browser.save screenshot('full snap. png’) 
page snap obj Image. open('full snap. png’) 
return page snap obj 


# 在 一 些 滑动 验证 中 ,获取 背景 图 片 可 能 需要 更 复杂 的 机 制 
# 原始 的 HTML 图 片 元 素 需要 经 过 拼接 整理 才能 拼 出 最 终 想 要 的 效果 
# 为 了 避免 这 样 的 麻烦 ,一 个 思路 就 是 直接 对 网 页 截图 ,而 不 是 去 下 载 元 素 中 的 img src 


def get_image( browser): 
img = browser.find element by class name('geetest canvas img') + 根据 元 素 的 class 
* 名 定位 
time. sleep(2) 
loc = img. loc 
size= img.size 


left = loc['x'] 

top = loc['y'] 

right = left + size[ 'width'] 
bottom = top + size[ 'height'] 


page snap obj = get screenshot( browser) 
image obj- page snap obj.crop((left, top, right, bottom)) 
return image obj 


# 获取 滑动 距离 
def get distance(imagel, image2, start = 57, thres = 60, bias =7): 
+ 比 对 RGB 的 值 
for i in range( start, imagel.size[0]): 
for j in range( imagel.size[1]): 
rgbl = imagel.load()[i, j] 
rgb2 = image2.load()[i, j] 
resl = abs(rgb1[0] - rgb2[0]) 
res2- abs(rgbl[1] - rgb2[1]) 
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res3 = abs(rgb1[2] - rgb2[2]) 


if not (resl « thres and res2 « thres and res3 « thres): 
return i - bias 
return i - bias 


H PEPEYE SIME 
def gen_track( distance): 
* 也 可 通过 随机 数 来 获得 轨迹 


# 将 少 动 距离 增 大 一 点 , 即 先 滑 过 目标 区 域 , 再 滑动 回来 ,有 助 于 避免 谱 判 定 为 机 器 人 
distance += 10 

v=0 

t=0.2 

forward= [] 


current = 0 
mid= distance * (3/5) 
while current < distance: 
if current < mid: 
a=2.35 
# FATE GR HES BL a A A FE 
else: 
a=-3.35 
s=v* t+ 0.5 * a * (t «x 2) # 使 用 加 速 直线 运动 公式 
vevta*t 
current += S 
forward. append( round( s) ) 


PeacezdsT=37 =2; =2; = 27 ] 


return ('forward tracks': forward, 'back tracks': backward] 


def crack slide(browser): + 破解 滑动 认证 
* 单 击 验证 按钮 ,得 到 图 片 
button = browser.find element by class name('geetest radar tip') 
button. click() 
imagel = get_image( browser) 


# 单 击 滑动 ,得 到 有 缺口 的 图 片 

button = browser.find element by class name('geetest slider button') 
button. click() 

+ 获取 有 缺口 的 图 片 

image2 = get image( browser) 

# 计算 位 移 量 


distance = get distance(imagel, image2) 
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# 计算 轨迹 

tracks = gen track(distance) 

# 在 计算 轨迹 方面 ,还 可 以 使 用 一 些 鼠 标 采 集 工 具 事先 采集 人 类 用 户 的 正常 轨迹 ,将 采集 到 的 
# 轨迹 数据 加 载 到 程序 中 


# 执行 滑动 
button = browser.find element by class name('geetest slider button') 
ActionChains(browser).click and hold(button).perforn() # 童 击 并 保持 


for track in tracks[ 'forward']: 

ActionChains( browser ).move_by offset(xoffset = track, yoffset = 0).perform() 
time. sleep(0.95) 
for back track in tracks[ backward']: 

ActionChains( browser ).move_by offset(xoffset = back track, yoffset = 0).perform() 


# 在 滑动 终点 区 域 进行 小 范围 的 左右 位 移 , 模 仿 人 类 的 行为 
ActionChains(browser).move by offset(xoffset =- 2, yoffset = 0).perform() 
ActionChains( browser ).move_by offset(xoffset = 2, yoffset = 0).perform() 


time. sleep(0.5) 
ActionChains( browser). release().perform() # HIF 


def worker(username, password): 
browser = webdriver. Chrome( 'your chrome driver path’) 
try: 
browser. implicitly wait(3) E A 
browser. get( ‘your target login url') 


# 在 实际 使 用 时 需要 根据 当前 网 页 的 情况 定位 元 素 
username = browser.find element by id( 'username') 
password  browser.find element by id( 'password') 
login = browser.find element by id( 'login') 
username.send keys(username) 

Password. send_keys( password) 

login. click() 


crack_slide(browser) 


time. sleep(15) 
finally: 
browser. close() 


if name  -- ' main 


worker(username = 'yourusername', password = 'yourpassword') 


对 于 程序 的 一 些 说 明 可 详 见 上 方 代码 中 的 注释 ,值得 一 提 的 是 ,这 种 破解 滑动 验 
证 的 方式 使 用 了 Selenium 自动 化 Chrome 作为 基础 ,为 了 在 一 定 程度 上 降低 性 能 开 
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销 , 还 可 以 使 用 PhantomJS 这 样 的 无 头 浏览 器 来 代替 Chrome。 这 种 模式 的 缺点 在 于 
无 法 离开 浏览 器 环境 ,但 退 一 步 说 ,如 果 需 要 自动 化 控制 滑动 验证 ,没有 Selenium 这 
样 的 浏览 器 自动 化 工具 可 能 是 难以 想象 的 ,网 络 上 也 出 现 了 一 些 针对 滑动 验证 的 打 
码 API, 但 总 体 上 看 实用 性 和 可 靠 性 都 不 高 ,这 种 模拟 鼠标 拖 动 的 方案 虽然 耗 时 长 ， 
但 至 少 能 够 取得 应 有 的 效果 。 

将 上 述 程序 有 针对 性 地 进行 填充 和 改写 ,运行 程序 后 即 可 看 到 程序 成 功 模拟 出 
了 滑动 验证 并 通过 了 验证 ( 见 图 5-18)。 


账号 


密码 


安全 提问 


co G ceeresr 


mine: uy) @ 


自动 登录 


图 5-18 滑动 验证 结果 

另外 要 提 的 是 ,有 一 些 滑动 验证 服务 的 数据 接口 设计 较为 简单 ,JS 传输 数据 的 
安全 性 也 不 高 ,针对 这 种 验证 码 完全 可 以 采取 破解 API 的 方式 来 欺骗 验证 码 服务 ,不 
过 这 种 方式 的 普 适 性 不 高 ,往往 需要 花费 大 量 精力 分 析 对 应 的 数据 接口 ,并 且 具 有 一 
定 的 道德 和 法 律 问题 ,因此 和 暂 不 袭 述 。 

在 今天 ,除了 传统 的 图 形 验 证 码 (典型 的 例子 就 是 单词 验证 码 ) 以 外 ,新 式 的 验证 
码 (或 类 验证 码 ) 手 段 正在 成 为 主流 ,例如 滑动 验证 、 拼 图 验证 ,短信 验证 (一 般 用 于 手 
机 号 快速 登录 的 情形 ) 以 及 Google 大 名 鼎鼎 的 reCAPTCHA( 据 称 该 解决 方案 甚至 
会 将 用 户 鼠 标 在 页 面 内 的 移动 方式 作为 一 条 判定 依据 ) 等 。 用 户 不 仅 在 登录 环节 会 
遇 到 验证 码 , 很 多 时 候 如 果 用 户 的 抓 取 程序 运行 频率 较 高 ,网 站 方 也 会 通过 弹出 验证 
码 的 方式 进行 “拦截 ”, 毫 不 夸张 地 说 ,要 做 到 程序 模拟 通过 验证 码 的 完全 自动 化 很 不 
容易 。 但 无 论 如 何 , 从 总 体 上 看 ,针对 图 形 验证 码 而 言 , 通 过 OCR、 人 工 打 码 或 者 神 
经 网 络 识别 等 方式 至 少 能 够 降低 一 部 分 时 间 和 精力 成 本 ,因此 算是 比较 可 行 的 方案 。 
针对 滑动 验证 方式 ,也 可 以 使 用 模拟 浏览 器 的 方法 来 应 对 。 从 省 时 、 省 力 的 角度 来 
说 ,先进 行 一 次 人 工 登 录 , 记 录 Cookie, 再 使 用 Cookie 加 载 登录 状态 进行 抓 取 也 是 不 
错 的 选择 。 
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5.5 本 章 小 结 


表单 .登录 以 及 验证 码 识别 是 疏 虫 程序 的 编写 中 相对 不 那么 “愉快 ”的 部 分 ,但 对 
提高 怜 虫 程序 的 实用 性 有 着 很 大 的 作用 ,因此 本 章 中 的 内 容 也 是 编写 更 复杂 、 更 强大 
疏 虫 程序 的 必 备 要 点 ,如 果 读 者 对 模拟 登录 比较 感 兴趣 ,可 以 抽 时 间 多 研究 一 下 
JavaScript 与 表单 的 配合 使 用 ,在 很 多 网 页 中 填写 的 表单 信息 实际 上 会 经 过 页 面 中 
JS 的 一 层 “ 再 加 工 ? 处 理 才 会 发 送 至 服务 器 。 在 图 片 验 证 码 破解 方面 ,网 络 上 有 很 多 
利用 OCR 手段 识别 验证 码 文字 的 例子 ,如 果 读 者 对 基于 神经 网 络 的 图 像 文字 识别 感 
兴趣 ,可 以 参考 斯 坦 福 大 学 的 CS231 课程 (http://cs231n. stanford. edu/) 入 门 图 像 
识别 领域 。 
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网 络 肘 虫 抓 取 到 的 数值 ,文本 等 各 类 信息 在 经 过 存储 和 预 处 理 后 可 以 通过 
Python 进行 更 深层 次 的 分 析 , 本 章 就 以 Python 应 用 最 为 广泛 的 文本 分 析 和 数据 统 
计 等 领域 为 例 介 绍 一 些 对 数据 做 进一步 处 理 的 方式 方法 。 


6.1 Python 与 文本 分 析 


6.1.1 什么 是 文本 分 析 


文本 分 析 ,也 就 是 通过 计算 机 对 文本 数据 进行 分 析 , 其 实 这 不 算 一 个 新 的 话题 ， 
但 是 近年 来 随 着 Python 在 数据 分 析 和 自然 语言 处 理 领域 的 广泛 应 用 ,使 用 Python 
进行 文本 分 析 变 得 十 分 方便 。 

GER) 结构 化 数据 一 般 是 指 能 够 存储 在 数据 库 里 ,可 以 用 二 维 表 结构 逻辑 来 
表达 的 数据 。 与 之 相 比 ,不 适合 通过 数据 库 二 维 逻辑 表 来 表现 的 数据 就 称 为 非 结构 
化 数据 ,包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 XML、HTML、 各 类 报表 、 图 像 和 音 
频 / 视 频 信 息 等 。 这 种 数据 的 特征 在 于 ,其 数据 是 多 种 信息 的 混合 ,通常 无 法 直接 知 
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道 其 内 部 结构 ,只 有 经 过 识别 以 及 一 定 的 存储 分 析 后 才能 体现 其 价值 。 
由 于 文本 数据 是 非 结构 化 数据 (或 者 半 结 构 化 数据 ), 所 以 用 户 一 般 都 需要 对 其 
进行 某 种 预 处 理 , 这 时 可 能 遇 到 的 问题 如 下 。 
CD 数据 量 问题 : 这 是 任何 数据 预 处 理 过 程 中 都 可 能 碰 到 的 一 个 问题 ,由 于 现在 
人 们 在 网 络 上 进行 文字 信息 交流 十 分 广泛 ,文本 数据 规模 往往 也 非常 大 。 
(2) 在 文本 挖掘 时 ,用 户 往往 将 文本 (词语 等 ) 转 换 为 文本 向 量 , 但 一 般 在 数据 处 
理 后 向 量 都 会 面临 维度 过 高 或 过 于 稀疏 的 问题 ,如 果 希 望 进行 进一步 的 文本 挖掘 ,可 
能 需要 一 些 特定 的 降 维 处 理 。 
(3) 文本 数据 的 特殊 性 : 由 于 人 类 语言 的 复杂 性 ,计算 机 目前 对 文本 数据 进行 多 
辑 和 情感 上 的 分 析 能 力 还 很 有 限 ,近年 来 机 器 学 习 技 术 火 热 发 展 , 但 在 语言 处 理 方面 
的 能 力 尚 不 如 图 像 视觉 方面 的 成 就 。 
一 般 来 说 ,文本 分 析 ( 有 时 候 也 称 为 文本 挖掘 ) 的 主要 内 容 如 下 。 
t 语言 处 理 : 虽然 一 些 文本 数据 分 析 会 涉及 较 高 级 的 统计 方法 ,但 是 部 分 分 析 
还 是 会 更 多 地 涉及 自然 语言 处 理 过 程 ,例如 分 词 ,词性 标注 、 句 法 分 析 等 。 
。 模 式 识别 : 文本 中 可 能 会 出 现 像 电 话 号 码 、 邮 箱 地 址 这 样 的 有 正规 表示 方式 
的 实体 ,通过 这 些 特殊 的 表示 方式 或 者 其 他 模式 来 识别 这 些 实体 的 过 程 就 是 
模式 识别 。 
”文本 聚 类 : 即 运用 无 监督 机 器 学 习 手段 归 类 文本 ,适用 于 海量 文本 数据 的 分 
Vr ,在 发 现 文本 话题 .筛选 异常 文本 资料 方面 应 用 广泛 。 
© 文本 分 类 : 即 在 给 定 分 类 体系 下 根据 文本 特征 构建 有 监督 机 器 学 习 模 型 , 达 
到 识别 文本 类 型 或 内 容 主 旨 的 目的 。 
Python 发 达 的 第 三 方 库 提供 了 一 些 文本 分 析 的 实用 工具 ,这 里 要 说 的 是 文本 分 
析 与 字符 串 处 理 并 不 相同 ,字符 串 处 理 更 多 地 是 指 对 一 个 str 在 形式 上 进行 一 些 变换 
和 更 改 , 而 文本 分 析 则 更 多 地 强调 对 文本 内 容 进 行 语义 、 人 小 辑 上 的 分 析 和 处 理 。 在 整 
个 分 析 的 过 程 中 ,用 户 需要 使 用 一 些 基本 的 概念 和 方法 ,在 各 种 实现 文本 挖掘 的 工具 
中 一 般 都 会 有 所 体现 。 
* 分 词 : 是 指 将 由 连续 字符 组 成 的 句子 或 段落 按照 一 定 的 规则 划分 成 独立 词语 
的 过 程 。 在 英文 中 ,由 于 单词 之 间 是 以 空格 作为 自然 分 界 符 的 ,因此 可 以 直 
接 使 用 “空格 (space)” 符 作为 分 词 标记 ,而 中 文句 子 内 部 一 般 没有 分 界 符 , 所 
以 中 文 分 词 比 英文 要 更 为 复杂 。 
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停 用 词 : 是 指 在 文本 中 不 影响 核心 语义 的 “无 用 ” 字 词 ,通常 为 在 自然 语言 
常见 但 没有 具体 实在 意义 的 助词 虚词 .代词 ,例如 “的 “了 ”“ 啊 "等 。 停 用 词 
的 存在 直接 增加 了 文本 数据 的 特征 维度 ,提高 了 文本 数据 分 析 过 程 中 的 成 
本 ,因此 一 般 需 要 先 设 置 停 用 词 ,对 其 进行 筛选 。 

词 向 量 : 为 了 能 够 使 用 计算 机 和 数学 方式 分 析 文本 信息 ,需要 使 用 某 种 方法 
把 文字 转变 为 数学 形式 ,这 方面 比较 常见 的 解决 方法 就 是 将 自然 语言 中 的 字 
词 通过 数学 中 向 量 的 形式 进行 表示 。 

词性 标注 : 也 就 是 说 对 每 个 字 词 进行 词性 归 类 (标签 ), 例 如 “苹果 ”为 名 词 、 
“ 吃 "为 动词 等 ,以 便于 后 续 的 处 理 。 不 过 在 中 文 语 境 下 词性 本 身 就 比较 复 
杂 , 因 此 词性 标注 也 是 一 个 值得 用 户 深 入 探索 的 领域 。 

句法 分 析 : 指 根据 给 定 的 语法 体系 分 析 句 子 的 句法 结构 ,划分 句子 中 词语 的 
语法 功能 ,并 判断 词语 之 间 的 句法 关系 ,在 语义 分 析 的 基础 上 ,这 是 对 文本 罗 
辑 进行 分 析 的 关键 。 

情感 分 析 : 是 指 在 文本 分 析 和 挖掘 过 程 中 对 内 容 中 体现 的 主观 情感 性 进行 分 
析 和 推理 的 过 程 ,情感 分 析 与 与 论 分 析 、 意 见 挖掘 等 领域 有 着 十 分 密切 的 
联系 。 


6.1.2 jieba 与 SnowNLP 


下 面 通过 jieba 和 SnowNLP 两 个 中 文 文本 分 析 工 具 来 熟悉 一 下 文本 分 析 的 简单 
用 途 。 其 中 ,jieba 是 国人 开发 的 一 个 中 文 分 词 与 文本 分 析 工 具 , 可 以 实现 很 多 实用 
的 文本 分 析 处 理 。jieba 和 其 他 模块 一 样 ,通过 “pip install jieba” 指 令 安装 后 用 
"import jieba” 即 可 使 用 , 接 下 来 通过 一 些 例子 来 介绍 具体 的 细节 。 

使 用 jieba 进行 分 词 非常 方便 ,jieba. cut() 方 法 接受 3 个 输入 参数 , 即 待 处 理 的 字 
符 串 .cut_all (是否 采用 全 模式 )\HMM (是 否 使 用 HMM 模型 )。jieba. cut_for_ 
search() 方 法 接受 两 个 参数 , 即 待 处 理 的 字符 串 和 HMM ,这 个 方法 适合 用 于 搜索 引 
擎 构建 倒 排 索引 的 分 词 ,粒度 比较 细 , 使 用 频率 不 高 。 


import jieba 


seg list- jieba. cut(" 这 里 曾经 有 一 座 大 厦 " cut_all = True) 
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print(" / ".join(seg list)) # 全 模式 


seg_list = jieba. cut(" 欢 迎 使 用 Python 语言 "，cut_all = False) 
print(" / ". join(seg list)) # 精确 模式 


seg list- jieba. cut(" 我 喜欢 吃 苹 果 , 不 喜欢 吃香 蕉 .") # 默认 是 精确 模式 
print(" / ".join(seg list)) 


输出 如 下 : 


这 里 / 曾经 / 有 / 一 座 / 大 厦 
欢迎 / 使 用 / Python / 语言 
我 /喜欢 / 吃 / 苹 果 /,/ 不 /喜欢 / 吃 / 香 蕉 1/ 。 


cut() 与 cut_for_research() 方 法 返回 生成 器 ,而 jieba. lcut() 以 及 jieba. lcut_for_ 
search() 方 法 会 直接 返回 list。 

【提示 】 迭代 器 和 生成 器 是 Python 中 很 重要 的 概念 ,实际 上 list 本 身 就 是 一 个 
可 迭代 对 象 , 对 于 它们 的 具体 关系 ,读者 可 参考 附录 A 中 的 相关 内 容 。 

jieba 还 支持 关键 词 提 取 , 例 如 基于 TF-IDF 算法 (Term Frequency-Inverse 
Document Frequency) 的 关键 词 提取 方法 jieba. analyse. extract_tags(sentence, topK=20, 
withWeight= False, allowPOS= O) ,其 中 ,sentence 为 待 提取 的 文本 ; topK 为 返回 
几 个 TF/IDF 权重 最 大 的 关键 词 , 默 认 值 为 20; withWeight 为 是 否 一 并 返回 关键 词 
权重 值 ,默认 值 为 False; allewPOS 指 仅 包括 指定 词性 的 词 ,默认 值 为 空 , 即 不 筛选 。 

例如 : 

import jieba. analyse 

import jieba 


sentence = ''' 

L i$ rh (Shanghai), 简称" 沪 "或 " 申 ", 有 "东方 巴黎 "的 美称 。 它 是 中 国 四 个 中 央 直辖 市 之 一 ,也 是 
中 国 第 一 大 城市 。 

它 是 中 国 大 陆 的 经 济 、 金 融 、 贸 易 和 航运 中 心 。 上 海 创 造 和 打破 了 中 国 世界 纪录 协会 多 项 世界 之 
最 、 中 国之 最 。 

上 海 位 于 中 国 大 陆 海 岸 线 中 部 的 长 江口 ,拥有 中 国 最 大 的 外 贸 港口 .最 大 的 工业 基地 。 


res = jieba.analyse.extract tags(sentence, topK=5, withWeight = False, allowPOS = ()) 
print(res) 


输出 为 : 


[' 中 国 ',' 大 陆 '，' 中 国之 最 '，'Shanghai'，' 世 界 之 最 '] 
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jieba. posseg. POSTokenizer(tokenizer 一 None) 方 法 可 以 新 建 自 定义 分 词 器 ,其 
中 ,tokenizer 参数 可 指定 内 部 使 用 的 jieba. Tokenizer 分 词 器 。 

jieba. posseg. dt 则 为 默认 词性 标注 分 词 器 : 

from jieba import posseg 

words = posseg. cut(" 我 不 明白 你 这 句 话 的 意思 ") 


for word, flag in words: 
print('{}:\t{}'. format(word, flag)) 


tokenize() 方 法 会 返回 分 词 结果 中 词语 在 原文 的 起 止 位 置 ; 


result = jieba. tokenize( ' 它 是 站 在 海岸 遥望 海中 已 经 看 得 见 桥 杆 尖 头 了 的 一 只 航船 ) 
for tk in result: 
print("word %s\t\t start: %d\t\t end: $d" % (tk[0],tk[1],tk[2])) 


部 分 输出 如 下 : 

word 遥望 start: 6 end:8 
word 海 start: 8 end:9 
word 中 start: 9 end:10 
word 已 经 start: 10 end:12 
word 看 得 见 start: 12 end:15 


另外 ,jieba 模块 还 支持 自 定义 词典 .调整 词 频 等 ,这 里 就 不 歼 述 了 。 

SnowNLP 是 一 个 主打 简洁 、 实 用 的 中 文 处理 类 Python 库 ,与 jieba 分 词 不 同 的 
是 ,SnowNLP 模仿 TextBlob 编写 ,拥有 更 多 的 功能 ,但 是 SnowNLP 并 非 基 于 
NLTK(Natural Language Toolkit) JE ,在 使 用 上 仍 存在 一 些 不 足 。 

【提示 】 TextBlob 是 基于 NLTK 和 Pattern 封装 的 英文 文本 处 理工 具 包 ,同时 
提供 了 很 多 文本 处 理 功 能 的 接口 ,包括 词性 标注 、 名 词 短语 提取 、 情 感 分 析 、 文 本 分 
类 、 拼 写 检查 等 ,还 包括 翻译 和 语言 检测 功能 。 

SnowNLP 中 的 主要 方法 如 下 : 

from snownlp import SnowNLP 

s= SnowNLP( 我 来 自 中 国 ,喜欢 吃 饺子 ,爱好 是 游泳 。) 

# 分 词 

print(s.words) 

HBH DR, KÁ, BED, Ss EIC, TES CERTUS, Vs ERE "UK, V] 


+ 输出 
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HGR BL HE EE 
print(s. sentiments) # positive 的 概率 ,输出 0. 9959503726200969 


# 文字 转换 为 拼音 

print(s.pinyin) 

# 输出 

# ['wo', 'lai', 'zi', 'zhong', 'guo', ',', 'xi', 'huan', 
站 


S= SnowNLP(u'T 繁体 中 文 , 的 岂 法 在 我 国 台 湾 也 很 常见 。) 


TOT 
print(s.han) 
# 输出 : "繁体 中 文 的 叫 法 在 我 国 台湾 也 很 常见 


text =u'"' 

深圳 ,简称 " 深 ", 别 称 " 鹏 城 ", 古 称 南越 新安、 宝安 ,是 中 国 四 大 一 线 城市 之 一 , 

为 广东 省 省 辖 市 .计划 单列 市 . 副 省 级 市 .国家 区 域 中 心 城市 .超大 城市 

。 深 圳 地 处 广东 南部 ,珠江 口 东 岸 ,与 香港 一 水 之 隔 , 东 临 大 亚 湾 和 大 鹏 湾 , 西 濒 珠 江口 和 伶 体 洋 ， 
南 隔 深圳 河 与 我 国 香港 相连 ,北部 与 东莞 、 惠 州 接壤 。 


s = SnowNLP( text) 

# 关键 词 提取 
Print(s.keywords(3)) 

# fiih: CH, RA, SK] 


# 文本 摘要 

print(s.summary(5)) 

Todi: (TPR I 5j CIS PEE THE, EOR, ARO AAS IT TF’, 

E A AG d: .计划 单列 市 . 副 省 级 市 .国家 区 域 中 心 城市 超大 城市 '，' 是 中 国 四 大 一 线 城 
| 


* 分 句 

print(s.sentences) 

Todi: DERE, EPI UR, BR MS", TARR 新 安 宝安 '， 坚 中 国 四 大 一 线 城市 之 一 

E 为 广东 省 省 辖 市 计划 单列 市 副 省 级 市 .国家 区 域 中 心 城市 超大 城市 ， 深 圳 地 处 广东 南部 '， 

# KIORE, Spk, KEKEME, AROME E, AR 
# 圳 河 与 香港 相连 '， 北 部 与 东莞 .惠州 接壤 '] 


以 上 是 两 个 比较 简单 的 中 文 处 理工 具 , 如 果 用 户 只 是 想 对 文本 信息 进行 初步 


的 分 析 , 并 且 对 于 准确 性 要 求 不 是 很 高 .那么 足以 满足 用 户 的 需求 。 与 jieba 和 
SnowNLP 相 比 ,在 文本 分 析 领 域 中 NLTK 是 比较 成 熟 的 库 , 接 下 来 将 对 它 进行 一 
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些 简 单 的 介绍 。 


6.1.3 NLTK 


NLTK 是 一 个 比较 完备 的 提供 Python API 的 语言 处 理工 具 , 提 供 了 丰富 的 语 料 
和 词典 资源 接口 以 及 一 系列 的 文本 处 理 库 ,支持 分 词 .标记 、 语 法 分 析 、` 语 义 推 理 、 文 


本 分 类 等 文本 数据 分 析 需 求 。 


NLTK 提供 了 对 语 料 与 模型 等 的 内 置 管理 器 ( 见 图 6-1) ,使 用 下 面 的 语句 就 可 以 


管理 包 : 


Name Size 


Packages for running tests 


Third-party data packages ma 


pmi 


Status E 


not installed 
not installed 
not installed 
not installed 
not installed 
not installed 


mi] 


Server Index ht tps: //raw.githubusercontent.com/nltk/nltk data/gh-pages/index.xml 


Download Directory:|C: \Users\ zhangyang\AppData\Roaming\nltk_data 


图 6-1 NLTK 内 置 的 管理 器 


在 安装 需要 的 语 料 或 模型 之 后 ,用 户 可 以 看 一 下 NLTK 的 一 些 基本 用 法 ,首先 


是 基础 的 文本 解析 。 
基本 的 tokenize 操作 (英文 分 词 ) : 


(7 Python 网 络 疏 3 


import nltk 

sentence = "Susie got your number and Susie says it's right." 
tokens = nltk. word tokenize(sentence) 

print(tokens) 


输出 为 : 
['Susie', 'got', 'your', 'number', 'and', 'Susie', 'says', 'it', "'s", 'right', '.'] 


这 里 需要 注意 的 是 ,如 果 是 首次 在 计算 机 上 运行 这 段 NLTK 的 代码 ,会 提示 安 
装 punkt 包 (punkt tokenizer models) ,这 时 用 户 通 过 上 面 提 到 的 download() 方 法 安 
装 即 可 。 这 里 建议 在 包 管理 器 里 同时 安装 books, 之 后 通过 from nltk. book import. * 可 
以 导入 这 些 内 置 文本 。 导 入 成 功 后 的 结果 如 下 : 


*** Introductory Examples for the NLTK Book *** 
Loading textl, ..., text9 and sentl, ..., sent9 
Type the name of the text or sentence to view it. 
Type: 'texts()'or 'sents()'to list the materials. 
textl: Moby Dick by Herman Melville 1851 

text2: Sense and Sensibility by Jane Austen 1811 
text3: The Book of Genesis 

text4: Inaugural Address Corpus 

text5: Chat Corpus 

text6: Monty Python and the Holy Grail 

text7: Wall Street Journal 

text8: Personals Corpus 

text9: The Man Who Was Thursday byG . K . Chesterton 1908 


这 实际 上 是 加 载 了 一 些 书 籍 数据 ,而 textl 一 text9 为 Text 类 的 实例 对 象 名 称 ， 
对 应 内 置 的 书籍 。 

Text::concordance(word) 方 法 会 接收 一 个 单词 ,会 打印 出 输入 单词 在 文本 中 出 
现 的 上 下 文 , 见 图 6-2. 


TIn[6]，text1.concordance( ‘america’ ) 

Displaying 12 of 12 matches: 

of the brain ." -- ULLOA ' S SOUTH AMERICA . " To fifty chosen sylphs of speci 
, in spite of this , nowhere in all America will you find more patrician - like 
hree pirate powers did Poland . Let America add Mexico to Texas , and pile Cuba 
, how comes it that we whalemen of America now outnumber all the rest of the b 
mocracy in those parts . That great America on the other side of the sphere , A 
f age ; though among the Red Men of America the giving of the white belt of wam 
and fifty leagues from the Main of America , our ship felt a terrible shock , 


图 6-2 concordance() 方 法 的 输出 


Text:: similar(word) 方 法 接收 一 个 单词 字符 串 , 会 打印 出 和 输入 单词 具有 相同 
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上 下 文 的 其 他 单词 ,例如 寻找 与 "american” 具 有 相同 上 下 文 的 单词 , 见 图 6-3. 


In[4]: text1.similar( american’) 
english sperm whale entire great last same ancient right oars that 
famous old he greenland before beheaded whole particular trumpa 


图 6-3 similar() 方 法 的 输出 
common_contexts() 方 法 则 返回 多 个 单词 的 共用 上 下 文 , 见 图 6-4。 


In[15]: text1.common contexts(['english','smericen']) 
the whalers the whale and whale of whalers 


图 6-4 common. contexts O 77 1A (fü fii Hh 

Text::dispersion_plot(words) 方 法 接收 一 个 单词 列表 作为 参数 ,绘制 每 个 单词 
在 文本 中 的 分 布 情况 ,效果 见 图 6-5。 

用 户 还 可 以 使 用 count() 方 法 进行 词 频 计数 ,例如 textl. count (ther ' f fi H A 
“329”, 表 示 这 个 单词 在 textl 中 出 现 了 329 次 。 

FreqDist 也 是 十 分 常用 的 对 象 ,用 户 可 以 使 用 fdl = FreqDist(textl) 语 句 创建 
È ,接着 使 用 most_common() 方 法 查看 高 频 词 ,例如 查看 文本 中 出 现 次 数 最 多 的 20 
个 词 ,如 图 6-6 Bron 。 


Lexical Dispersion Plot In[14]: fdi.most common(;:) 


herp wm ini mamane mw 


Li " 1 " " 1 
0 50000 100000 150000 200000 250000 
Word Offset ("was', 1632)] 


图 6-5 “her" 在 文本 中 的 分 布 情况 图 6-6 查看 文本 中 出 现 最 多 的 词 


FreqDist 也 自 带 绘图 方法 ,例如 绘制 高 频 词 折线 图 ,查看 出 现 最 多 的 前 15 项 , 语 
名 为 fdl. plot(15) ,绘制 效果 如 图 6-7 所 示 o 

除了 图 形 方式 以 外 ,用 户 还 可 以 用 表格 方式 呈现 高 频 词 ,使 用 tabulate() 方 法 , 见 
图 6-8. 


Python 网 络 礁 虫 实战 
Q 


Counts 
E 
S 


that 
his 


Samples 


图 6-7 绘制 结果 


In[16]: fdi.tabulate(1:) 


' H o! and a to i in that X - his it I 
18713 13721 6862 6536 6024 4569 4542 4072 3916 2982 2684 2552 2459 2209 2124 


图 6-8 tabulate() 方 法 的 使 用 


在 NLTK 中 还 提供 了 分 词 (tokenize) 和 词性 标注 的 方法 ,用 户 可 以 使 用 nltk. 
word_tokenize() 方 法 和 nltk. pos_tag() 方 法 进行 操作 , 见 图 6-9, 


In[17]: words = nltk.word tokenize('There is something different with this girl.') 


In[18]: words 


Out[18]: ['There', 'is', 'something', 'different', 'with', 'this', ‘girl’, 


In[19]: tags = nltk.pos tag(words) 
In[20]: tags 


('something', 'NN'), 
('different', '227), 
Cwith', "IN'), 


th 5 BLU 
(girt, ‘NN'), 
(2t 2 


an 


图 6-9 词性 标注 结果 


中 文 语料库 实现 对 中 文句 子 的 词性 标注 。 


词性 标注 一 般 需 要 先 借助 语料库 进行 训练 ,除了 西方 文字 以 外 ,用 户 还 可 以 使 用 


以 上 是 NLTK 中 的 一 些 最 基础 的 方法 ,除了 下 载 到 本 地 的 Python 类 库 以 外 ,还 


有 必要 提 到 一 些 基 于 并 行 计算 系统 和 分 布 式 息 虫 构建 的 中 文 语义 开放 平台 ,其 中 的 
基本 功能 是 免费 使 用 的 ,用 户 可 以 通过 API 实现 搜索 .推荐 .与 情 、 挖 掘 等 语义 分 析 应 


H. 


国内 比较 有 名 的 平台 有 哈工大 语言 云 、 腾 讯 文智 ( 见 图 6-100 55. 
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ERIT 


输入 一 段 想 分 析 的 文字 


哈佛 同时 也 是 美国 本 土 历史 最 怎 久 的 高 等 学 奉 , 其 三 生 于 1636 年 ,最早 由 马 荚 诸 塞 州 瑚 民 地 立法 机 关 创 建 ， 初 名 新 市 民 学 院 ,是 为 了 7 O 
纪念 在 成 立 初期 给 予 学 院 慷慨 支持 的 约 输 -哈佛 牧师 。 学 校 于 1639 年 3 月 更 名 为 哈佛 学 院 . 


分 析 结 果 


BA pa ge Dt De es a A E a a E a a A 
meum 四 FEED EES 5e 司 v 5 * 5 E3 同 2 57 ES & av ow» 
wx Eng es ss 5 ECITAECI). EZ3 5 09 8 3 辐 ze 5 ew E3 司 


Ces [aa [ma | ERR (Cae 
[rema | [fea | m |[ ma J[ m |[ emm | [st 
(are |era] 


图 6-10 ”在线 文本 分 析 API 


6.1.4 文本 的 分 类 与 聚 类 


分 类 和 聚 类 是 数据 挖掘 领域 非常 重要 的 概念 ,在 文本 数据 分 析 的 过 程 中 ,分 类 和 
聚 类 也 有 举足轻重 的 意义 。 文 本 分 类 可 以 预测 判断 文本 的 类 别 , 广 泛 用 于 垃圾 邮件 
的 过 滤 、 网 页 分 类 ,推荐 系统 等 ,而 文本 聚 类 主要 用 于 用 户 兴 趣 识 别 、 文 档 自 动 归 
类 等 。 

分 类 和 聚 类 最 核心 的 区 别 在 于 训练 样本 是 否 有 类 别 标注 。 分 类 模型 的 构建 基于 
有 类 别 标注 的 训练 样本 ,属于 有 监督 学 习 , 即 每 个 训练 样本 的 数据 对 象 已 经 有 对 应 的 
类 (标签 ) 。 通 过 分 类 学 习 , 用 户 可 以 构建 出 一 个 分 类 函数 或 分 类 模型 ,这 就 是 人 们 常 
说 的 分 类 器 ,分 类 器 会 把 数据 项 映射 到 已 知 的 某 一 个 类 别 中 。 数 据 挖掘 中 的 分 类 方 
法 一 般 都 适用 于 文本 分 类 ,这 方面 常用 的 方法 有 决策 树 、 神 经 网 络 、 朴 素 贝 叶 斯 、 支 持 
向 量 机 (SVMD) 等 。 

与 分 类 不 同 , 聚 类 是 一 种 无 监督 学 习 。 换 句 话 说 , 聚 类 任务 预先 并 不 知道 类 别 
(标签 ), 所 以 会 根据 信息 相似 度 的 衡量 来 进行 信息 处 理 。 聚 类 的 基本 思想 是 使 得 
属于 同类 别 的 项 之 间 的 “差距 ” 尽 可 能 小 ,同时 使 得 不 同类 别 上 的 项 的 “差距 ” 尽 可 
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能 大 。 常 见 的 聚 类 算法 包括 K-means 算法 、K- 中 心 点 聚 类 算法 .DBSCAN 等 。 如 果 
用 户 需 要 通过 Python 实现 文本 聚 类 和 分 类 的 任务 ,推荐 使 用 scikitlearn 库 , 这 是 一 
个 非常 强大 的 库 , 提 供 了 包括 朴素 贝 叶 斯 .KNN、 决 策 树 、K-means 等 在 内 的 各 种 
XH. 

这 里 可 以 使 用 NLTK 做 一 个 简单 的 分 类 任务 ,由 于 NLTK 中 内 置 了 一 些 统计 学 
习 函 数 ,所 以 操作 并 不 复杂 。 例 如 借助 内 置 的 names 语料库 ,用 户 可 以 通过 朴素 贝 叶 
斯 分 类 来 判断 一 个 输入 的 名 字 是 男 名 还 是 女 名 , 见 例 6-1。 

【 例 6-1】 NLTK 使 用 朴素 贝 叶 斯 分 类 判断 姓名 对 应 的 性 别 。 


def gender feature( name): 
return ('first letter': name[0], 
"last letter': name[ - 1], 
"mid letter': name[len(name) // 2]) 
# 提取 姓名 中 的 首 字 母 ,中 位 字母 ,未 尾 字母 为 特征 


import nltk 
import random 
from nltk.corpus import names 


* 获取 名 字 - 性 别 的 数据 列表 

male names = [ (name, 'male') for name in names. words( 'male.txt')] 
female names - [(name, 'female') for name in names. words( 'female.txt')] 
names all- male names + female names 

random. shuffle(names all) 


# 生成 特征 集 
feature set = [(gender feature(n), g) for (n, g) in names all] 


E 拆 分 为 训练 集 和 测试 集 

train set size- int(len(feature set) * 0.7) 
train set- feature set[:train set size] 
test set- feature set[train set size:] 


classifier = nltk.NaiveBayesClassifier.train(train set) 


for name in [ 'Ann', 'Sherlock', 'Cecilia']: 
print('{}:\t{}'. format(nane, classifier.classify(gender feature(name)))) 


这 里 使 用 “Ann”( 女 名 )“Sherlock”( 男 名 )“Cecilia”( 女 名 ) 作 为 输入 ,输出 
如 下 : 


Ann: female 
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Sherlock: male 
Cecilia: female 


最 后 ,使 用 classifier. Show. most. informative features O 77 1 nT U E R Ws] fe X 
的 一 些 特征 值 ,部 分 输出 如 下 : 


Most Informative Features 


mid letter = 'w' male : female=5.8 : 1. 
first_letter = 'W' male : female=4.7 : 1.0 
first letter - 'U' male : female=3.3 : 1. 

mid letter = 'f' male : female-2.9 : 1. 


可 见 ,通过 简单 的 训练 ,用 户 已 经 获得 了 相对 满意 的 预测 结果 。 

最 后 要 说 明 的 是 ,NLTK 在 文本 分 析 和 自然 语言 处 理 方面 拥有 很 丰富 的 沉淀 , 语 
料 也 支持 用 户 定义 和 编辑 。 如 上 所 述 ,NLTK 在 配合 一 些 统计 学 习 方 法 (这 里 可 以 笼 
统 的 称 为 “机 器 学 习 ”) 处 理 文本 时 能 获得 非常 好 的 效果 ,上 面 的 姓名 -性 别 分 类 就 是 
一 个 小 例子 。 由 于 统计 学 习 方 法 这 部 分 涉及 的 数学 知识 和 Python 工具 较为 复杂 ,已 
经 超出 了 本 书 的 讨论 范围 ,在 此 就 不 再 袭 述 了 。NLTK 还 有 很 多 其 他 功能 ,包括 分 
块 ` 实 体 识别 等 ,都 可 以 帮助 人 们 获得 更 多 ,更 丰富 的 文本 挖掘 结果 。 


6.2 数据 处 理 与 科学 计算 


6.2.1 从 MATLAB 到 Python 


MATLAB 是 什么 ?官方 说 法 为 “MATLAB 是 一 种 用 于 算法 开发 .数据 分 析 、 数 
据 可 视 化 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 "(官网 介绍 见 图 6-11)。 
MATLAB 凭借 着 在 科学 计算 与 数据 分 析 领 域 的 强大 表现 ,被 学 术 界 和 工业 界 作为 主 
流 的 技术 。 不 过 MATLAB 也 有 一 些 劣势 ,首先 是 价格 ,与 Python 这 种 下 载 即 用 的 
语言 不 同 ,MATLAB 软件 的 正版 价格 不 菲 ,这 一 点 导致 其 受众 并 不 十 分 广泛 ; 其 次 ， 
MATLAB 的 可 移植 性 与 可 扩展 性 都 不 强 , 比 起 在 这 方面 得 天 独 厚 的 Python, 可 以 说 
它 没有 任何 长 处 。 

随 着 Python 语言 的 发 展 ,由 于 其 简洁 和 易于 编码 的 特性 ,使 用 Python 进行 科研 
和 数据 分 析 的 人 越 来 越 多 。 另 外 ,由 于 Python 活跃 的 开发 者 社区 和 日 新 月 异 的 第 三 
方 扩展 库 市 场 ,Python 在 这 一 领域 也 逐渐 与 MATLAB 并 驾 齐 驱 , 成 为 中 流 研 柱 。 
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理 等 。 


* Pandas: Pandas 可 以 视 为 NumPy 的 扩展 包 , 它 在 NumPy 的 基础 上 提供 了 一 


数 百 万 工程 师 和 科学 家 信赖 
MATLAB 


MATLAB. 
SERED, 


专业 开发 


MATLAB 工具 乱 和 过 专业 开发 、 严 格 测试 开 妇 有 完善 的 帮助 文档 . 


包含 交互 式 应 用 程序 


MATLAB. 


和 设计 过 程 的 训 而 环境 与 直接 雪 达 短 阵 和 数 


法 如 何 处 理 你 的 才 据 。 在 炮 欧 得 
t MATLAB 程序 ， 以便 对 您 的 工 


图 6-11 MATLAB 官网 中 的 介绍 
Python 中 用 于 这 方面 的 著名 工具 如 下 。 
。 NumPy: 这 个 库 提 供 了 很 多 关于 数值 计算 的 工具 ,例如 矢量 与 矩阵 处 理 , 以 
及 精密 的 计算 。 
。 SciPy: 科学 计算 函数 库 ,包括 线性 代数 模块 统计 学 常用 琐 数 、 信 号 和 图 像 处 


些 标准 的 数据 模型 (例如 二 维 数组 ) 和 实用 的 函数 (方法 )。 


。 Matplotlib: 它 有 可 能 是 Python 中 最 负 盛 名 的 绘图 工具 ,模仿 MATLAB 的 


绘图 包 。 


作为 一 门 通用 的 程序 语言 ,Python 比 MATLAB 的 应 用 范围 更 广泛 ,有 更 多 程序 
库 ( 尤 其 是 一 些 十 分 实用 的 第 三 方 库 ) 的 支持 。 这 里 以 Python 中 常用 的 科学 计算 与 
数值 分 析 库 为 例 , 简 单 介 绍 一 下 Python 在 这 方面 的 一 些 应 用 方法 。 由 于 篇 幅 所 限 ， 


下 面 将 注意 力主 要 放 在 NumPy、Pandas 和 Matplotlib 3 个 最 基础 的 工具 上 。 


6.2.2 NumPy 


NumPy 这 个 名 字 一 般 认 为 是 “Numeric Python” 的 缩写 ,使 用 它 的 方法 和 使 用 其 
他 库 一 样 (import numpy)。 用 户 还 可 以 在 import 扩展 模块 时 给 它 起 一 个 “外 号 ”， 


例如 : 


| 第 6 章 数据 的 进一步 处 理 (si) 
import numpy as np 


NumPy 中 的 基本 操作 对 象 是 ndarray, 与 原生 Python 中 的 list (列表 ) 和 array 
(数组 ) 不 同 ,ndarray 的 名 字 就 暗示 了 这 是 一 个 “多 维 ?” 的 对 象 。 首 先 创建 一 个 这 样 的 


ndarray: 


raw list- [i for i in range(10)] 
a= numpy.array(raw list) 
pr(a) 


输出 为 : 
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


用 户 还 可 以 使 用 arangeO ) 方 法 做 等 效 的 构建 过 程 ( 提 醒 一 下 ,Python 中 的 计数 
是 从 0 开始 的 ) ,之 后 通过 reshape() 可 以 重新 构造 这 个 数组 。 例 如 可 以 构造 一 个 三 
维 数组 ,其 中 reshape() 的 参数 表示 各 维度 的 大 小 , 且 按 各 维 顺序 排列 : 


from pprint import pprint as pr 
a=numpy.arange(20) # 构造 一 个 数组 
pr(a) 

a=a.reshape(2,2,5) 

pr(a) 

pr(a. ndim) 

pr(a. size) 

pr(a. shape) 

pr(a. dtype) 


输出 为 : 


i 
array([[[ 0, 1, 2, 3, 4], 
[5, 6, 7, 8, 91], 


[[10, 11, 12, 13, 14], 
[15, 16, 17, 18, 19]]]) 
3 
20 
27255) 
dtype( 'int32') 


上 面 通过 reshape() 方 法 将 原来 的 数组 构造 为 了 2X2X5 的 数组 (3 个 维度 ) ,之 
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后 用 户 还 可 以 进一步 查看 a( ndarray 对 象 ) 的 相关 属性 ,其 中 ndim 表示 数组 的 维度 ; 
shape 属性 为 各 维度 的 大 小 ; size 属性 表示 数组 中 全 部 的 元 素 个 数 ( 等 于 各 维度 大 小 
的 乘积 ); dtype 可 查看 数组 中 元 素 的 数据 类 型 。 

数组 的 创建 方法 比较 多 ,可 以 直接 以 列表 (list) 对 象 为 参数 创建 ,还 可 以 通过 特 
殊 的 方式 创建 ,np. random. rand() 将 创建 一 个 O~ 1 的 随机 数组 : 


a= numpy. random. rand(2, 4) 
pr(a) 


输出 为 : 


array([[ 0.61546266, 0.51861284, 0.04923905, 0.84436196], 
[ 0.98089299, 0.21496841, 0.23208293, 0.81651831]]) 


ndarray 也 支持 四 则 运算 ,例如 : 


a= numpy.array([[1, 2], [2, 4]]) 

b= numpy.array([[3.2, 1.5], [2.5, 4]]) 
pr(a* b) 

pr((a + b).dtype) 

pr(a- b) 

pr(a*b) 

pr(10 * a) 


上 面 的 代码 演示 了 对 ndarray 对 象 进行 基本 的 数学 运算 ,其 输出 为 : 


array([[ 4.2, 3.5], 
[4.5, 8. ]]) 
dtype( '£1oat64') 
array([[-2.2, 0.5], 
[-0:5, 10. T]) 
array([[ 3.2, 3. ], 
E 5:4 46.10) 
array([[10, 20], 
[20, 40]]) 


在 两 个 ndarray 做 运算 时 要 求 维度 满足 一 定 的 条 件 ( 例 如 加 减 时 维度 相同 )。 另 
外 ,a 十 b 的 结果 作为 一 个 新 的 ndarray, 其 数据 类 型 已 经 变 为 float64, 这 是 因为 b 数 
组 的 类 型 为 浮 点 ,在 执行 加 法 时 自动 转换 为 了 浮 点 类 型 。 

ndarray 还 提供 了 十 分 方便 的 求 和 、 求 最 大 /最 小 值 方法 : 
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arl numpy.arange(20).reshape(5,4) 
pr(arl) 

pr(arl. sum()) 

pr(arl. sum(axis = 0)) 
pr(arl.min(axis = 0)) 
pr(ari.max(axis = 1)) 


axis—0 表示 按 行 ,axis 一 1 表示 按 列 。 其 输出 结果 为 : 


array([[ 0, 1, 2, 3], 
[4, 5, 6 7], 
[8, 9, 10, 11], 
[12, 13, 14, 15], 
[16, 17, 18, 19]]) 
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array([40, 45, 50, 55]) 

array([0, 1, 2, 3]) 

array([ 3, 7, 11, 15, 19]) 


众所周知 ,在 科学 计算 中 会 经 常用 到 和 矩阵 的 概念 ,在 NumPy 中 也 提供 了 基础 的 
和 矩阵 对 象 Cnumpy. matrixlib. defmatrix. matrix) 。 和 矩阵 和 数组 的 不 同 之 处 在 于 ,和 矩阵 
一 般 是 二 维 的 ,而 数组 却 可 以 是 任意 维度 ( 正 整 数 ); 另外 ,矩阵 进行 的 乘法 是 真正 的 
矩阵 乘法 (数学 意义 上 的 ) ,而 在 数组 中 ”* ”只 是 每 一 对 应 元 素 的 数值 相 乘 。 

创建 矩 阵 对 象 非常 简单 ,可 以 通过 asmatrix() 方 法 把 ndarray 转换 为 矩阵 。 


arl numpy. arange(20). reshape(5, 4) 
pr(numpy. asmatrix(arl)) 

mt = numpy.matrix('1 2; 3 4', dtype = float) 
pr(mt) 

pr(type(mt)) 


输出 为 : 


matrix([[ 0, 1, 2, 3], 
[4 5; 6 7l 
[8, 9,10, 11], 
[12, 13; 14, 15]; 
[16, 17, 18, 19]]) 
matrix([[ 1., 2.], 
[Sy 42m): 


<class 'numpy. matrixlib. defmatrix. matrix? 


对 两 个 符合 要 求 的 矩阵 可 以 进行 乘法 运算 : 


B 
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mtl = numpy.arange(0, 10). reshape(2,5) 
mtl = numpy. asmatrix(mt1) 

mt2 = numpy. arange(10, 30). reshape(5,4) 
mt2 = numpy. asmatrix(mt2) 

mt3=mtl * mt2 

pr(mt3) 


输出 为 : 


matrix([[220, 230, 240, 250], 
[670, 705, 740, 775]]) 


访问 矩阵 中 的 元 素 仍然 使 用 类 似 于 列表 索引 的 方式 : 
pr(nt3L [1], [1,31]) 


输出 为 : 
matrix([[705, 775]]) 


对 于 二 维 数组 以 及 和 矩阵 ,还 可 以 进行 一 些 更 为 特殊 的 操作 ,具体 包括 转 置 \ 求 道 、 
求 特征 向 量 等 。 


import numpy.linalg as lg 

a = numpy. random. rand(2, 4) 

pr(a) 

a = numpy. transpose(a) + HHRMA 
pr(a) 

b= numpy. arange(0,10). reshape(2, 5) 

b= numpy. mat(b) 

pr(b) 

pr(b.T) + HEERE 


上 面 代码 的 输出 为 : 


array([[ 0.73566352, 0.56391464, 0.3671079, 0.50148722], 

[ 0.79284278, 0.64032832, 0.22536172, 0.27046815]]) 
array([[ 0.73566352, 0.79284278], 

[ 0.56391464, 0.64032832], 

[ 0.3671079 , 0.22536172], 
import numpy. linalg as lg 


a = numpy. arange(0, 4) . reshape(2, 2) 
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a= numpy. mat (a) E 将 数组 构造 为 矩阵 ( 方 阵 ) 

pr(a) 

ia= lg. inv(a) + Rw 

pr(ia) 

pr(a* ia) * Wik ia 是否 为 a HMI , 相 乘 结 果 应 该 为 单位 矩阵 
eig value, eig vector-lg.eig(a) # 求 特征 值 与 特征 向 量 

pr(eig value) 


pr(eig vector) 


上 面 代码 的 输出 为 ; 


matrix([[0, 1], 

[2, 3]]) 
matrix([[—1.5, 0.5], 

[1.，0.]]) 
matrix([[ 1., 0.], 

[0., 1.]]) 
array([ - 0.56155281， 3.56155281]) 
matrix([[ —0.87192821, — 0.27032301], 

[ 0.48963374, -0.96276969]]) 


另外 ,用 户 可 以 对 二 维 数组 进行 拼接 操作 ,包括 横 、 纵 两 种 拼接 方式 : 


import numpy as np 


a = np. random. rand(2, 2) 
b np. random. rand(2, 2) 
pr(a) 

pr(b) 

c = np. hstack([a, b]) 
d= np. vstack( [a,b]) 
pr(c) 

pr(d) 


输出 为 : 


array([[ 0.39433009, 0.61635481], 
[ 0.90390343, 0.58251318]]) 

array([[ 0.48100629, 0.89721558], 
[ 0.07523263, 0.33338738]]) 

array([[ 0.39433009, 0.61635481, 0.48100629, 0.89721558], 
[ 0.90390343, 0.58251318, 0.07523263, 0.33338738]]) 

array([[ 0.39433009, 0.61635481], 
[ 0.90390343, 0.58251318], 
[ 0.48100629, 0.89721558], 
[ 0.07523263, 0. 33338738]]) 
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最 后 ,用 户 可 以 使 用 boolean mask( 布 尔 屏蔽 ) 来 筛选 需要 的 数组 元 素 并 绘图 : 


import matplotlib. pyplot as plt 
a=np.linspace(0, 2 * np.pi, 100) 
b= np. cos(a) 

plt. plot(a, b) 

mask=b>=0.5 

plt.plot(a[mask], b[mask], 'ro') 
mask-b«-- 0.5 
plt.plot(a[mask], b[mask], 'bo') 
plt. show() 


最 终 的 绘图 效果 如 图 6-12 所 示 o 
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图 6-12 结合 NumPy 5j Matplotlib 绘图 


6.2.3 Pandas 


Pandas 一 般 被 认为 是 基于 NumPy 设计 的 ,由 于 其 具有 丰富 的 数据 对 象 和 强大 
的 函数 方法 ,Pandas 成 为 数据 分 析 与 Python 结合 的 最 好 范例 之 一 。Pandas 中 主要 
的 高 级 数据 结构 为 Series 和 DataFrame. 帮助 用 户 用 Python 更 方便 、 简 单 地 处 理 数 
据 ,其 受众 也 非常 广泛 。 

由 于 它们 一 般 需要 配合 NumPy 使 用 ,因此 可 以 这 样 导 入 两 个 模块 : 

import pandas 


import numpy as np 
from pandas import Series, DataFrame 


Series 可 以 看 成 是 一 般 的 数组 (一 维 数组 ) ,不 过 Series 这 个 数据 类 型 具有 索引 
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Cindex) ,这 是 与 普通 数组 十 分 不 同 的 一 点 : 


s = Series([1,2,3,np.nan,5,1]) # 从 1ist 创建 
print(s) 

a= np. random. randn(10) 

s= Series(a, name= 'Series 1') # 指明 Series 的 name 


print(s) 


dz[('a': 1, 'b': 2, 'c': 3} 


s= Series(d, name = 'Series from dict') # M dict 创建 
print(s) 

s=Series(1.5, index- ['a', 'b', 'c', 'd', 'e', '£','g']) # 指明 index 
print(s) 


需要 注意 的 是 ,如 果 在 使 用 字典 创建 Series 时 指定 index, IBA index 的 长 度 要 和 
数据 (数组 ) 的 长 度 相等 。 如 果 不 相等 ,会 被 NaN 填补 ,类 似 这 样 : 


de (‘a's 1, ‘bi: 2, 'e': 3) 
s= Series(d, name = 'Series from dict',index- ['a', 'c', 'd', 'b']) # 从 dict 创建 


print(s) 
输出 为 : 
a 1.0 
c 3d 
d NaN 
b 2.0 


Name: Series from dict, dtype: float64 


注意 ,这 里 索引 的 顺序 是 和 创建 时 索引 的 顺序 一 致 的 “d? 索 引 是 “多 余 的 ”, 因 此 
被 分 配 了 NaN(not a number, 表 示 数 据 缺 失 ) 值 。 

若 创 建 Series 时 的 数据 只 是 一 个 恒定 的 数值 ,会 为 所 有 索引 分 配 该 值 , 因 此 s = 
Series(1. 5. index 一 ['a','b'c''d''e' ffg) 会 创建 一 个 所 有 索引 都 对 应 1.5 的 
Series。 另 外 ,如 果 需 要 查看 index 或 者 name, "T VI fii FH. Series. index 或 Series 
. name 来 访问 。 

访问 Series 的 数据 仍然 使 用 类 似 列表 的 下 标 方法 ,或 者 是 直接 通过 索引 名 访问 ， 
不 同 的 访问 方式 如 下 : 
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s=Series(1.5, index- ['a', 'b', 'c', 'd', 'e', '£', 'g']) + 指明 index 
print(s[1:3]) 

print(s['a':'e']) 

print(s[[1,0,6]]) 

print(s[['g', 'b']]) 

print(s[s « 1]) 


输出 为 : 
b 1,8 
e 1:5 
dtype: float64 
a 7.5 
b 1.5 
c 1.5 
d 2/5 

1,5 
dtype: float64 
b 1.5 
a 1.5 
g 1.5 
dtype: float64 
g 1.5 
b 1.5 


dtype: float64 
Series([], dtype: float64) 


如 果 想 单纯 地 访问 数据 值 ,使 用 values 属性 : 


print(s['a':'e'].values) 


输出 为 : 
| 


除了 Series 以 外 ,Pandas 中 的 另 一 个 基础 的 数据 结构 就 是 DataFrame。 粗 略 地 
说 ,DataFrame 是 将 一 个 或 多 个 Series 按 列 逻辑 合并 后 的 二 维 结构 ,也 就 是 说 ,每 一 
列 单独 取出 来 是 一 个 Series。DataFrame 这 种 结构 看 起 来 很 像 是 MySQL 数据 库 中 
的 表 (table) 结 构 。 用 户 仍 然 可 以 通过 字典 (dict) 来 创建 一 个 DataFrame, 例 如 通过 一 
个 值 是 列表 的 字典 创建 : 

d ('e one': [1., 2., 3., 4.], 'c two': [4., 3., 2., 1.]) 


df = DataFrame(d, index- ['indexi', 'index2', 'index3', 'index4']) 
print(df) 
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输出 为 : 


C one c two 
indexl 1.0 4.0 
index2 2.0 3.0 
index3 3.0 2.0 
index4 4.0 1.0 


其 实 , 从 DataFrame 的 定义 出 发 ,用 户 应 该 从 Series 结构 来 创建 。DataFrame 有 
一 些 基 本 的 属性 可 供用 户 访 问 : 


d={'one': Series([1., 2., 3.], index-['a', 'b', 'c']), 
'two': Series([1, 2, 3, 4], index- ['a', 'b', 'c', 'd'])) 

df = DataFrame(d) 

print(df) 

print(df. index) 

print(df.colunns) 

print(df.values) 


输出 为 : 
one two 
a 1.0 1 
b 2.0 2 
e. 330 3 
d NaN 4 


Index(['a', 'b', 'c', 'd'], dtype- 'object') 
Index(['one', 'two'], dtype- 'object') 
[[ 1. 1] 


p & Bid 
[ 3. 3] 
[nan 4.]] 


由 于 “one” 这 一 列 对 应 的 Series 数据 个 数 少 于 “two” 这 一 列 ,因此 其 中 有 一 个 
NaN 值 ,表示 数据 空缺 。 
创建 DataFrame 的 方式 多 种 多 样 , 还 可 以 通过 二 维 的 ndarray 直接 创建 : 


d= DataFrame(np. arange(10). reshape(2, 5), columns = [ 'c1', 'c2', 'c3', 'c4', 'c5'], index = 
['i1', 'i2']) 
print(d) 


输出 为 : 


cl c2 c3 c4 c5 
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用 户 还 可 以 将 各 种 方式 结合 起 来 。 利 用 describe() 方 法 可 以 获得 DataFrame 的 
一 些 基本 特征 信息 : 


df2= DataFrame(( 'A': 1., 'B': pandas.Timestamp('20120110'), 'C': Series(3.14, index= 
list(range(4))), 'D': np.array([4] * 4, dtype- 'int64'), 'E': 'This is E' ]) 
print(df2) 

print(df2.describe()) 


输出 为 : 
A B C D E 
0 1.02012-01-10 3.14 4 ThisisE 
1 1.02012-01-10 3.14 4 ThisisE 
2 1.02012-01-10 3.14 4 ThisisE 
3 1.02012-01-10 3.14 4 ThisisE 
A C D 
count 4.0 4.00 4.0 
mean 1.0 3.14 4.0 
std 0.0 0.00 0.0 
min 1.0 3.14 4.0 
255 1.0 3.14 4.0 
505 1.0 3.14 4.0 
75% 1.0 3.14 4.0 
max 1.0 3.14 4.0 


TE DataFrame 中 包括 了 两 种 形式 的 排序 ,一 种 是 按 行 / 列 排序 , 即 按照 索引 ( 行 
名 ) 或 者 列 名 进行 排序 ,指定 axis=0 表示 按 索引 ( 行 名 ) 排 序 , 指 定 axis— 1 表示 按 列 
名 排序 ,并 可 指定 升序 或 降序 ; 第 二 种 排序 是 按 值 排序 ,当然 也 可 以 自由 指定 列 名 和 
排序 方式 : 

donb lls dl om E e r EN 

df = DataFrame(d, index- ['indexl', 'index2', 'index3', 'index4']) 

print(df) 

print(df.sort index(axis = 0,ascending = False)) 


print(df.sort values(by- 'c two')) 
print(df.sort values(by- 'c one')) 


f£ DataFrame 中 访问 (以 及 修改 ?数据 的 方法 也 非常 多 样 化 ,最 基本 的 是 使 用 类 
似 列表 索引 的 方式 : 
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dates = pd. date range( '20140101', periods = 6) 
df = pd. DataFrame(np. arange(24). reshape((6,4)),index = dates, columns =['A', B', 'C', 'D']) 


print (df) 

print(df['A']) # 访问 "a" 这 一 列 
print(df.A) * 同上 ,另外 一 种 方式 
print(df[0:3]) * 访问 前 3 行 
print(df[['A', 'B', 'C']]) * 访问 前 3 列 
print(df['A'][ 2014 - 01 - 02']) + 按 列 名 / 行 名 访问 元 素 


除 此 之 外 ,还 有 很 多 更 复杂 的 访问 方法 ,主要 如 下 : 


print(df. loc[ '2014 - 01 - 03']) Ë 按照 行 名 访问 

print(df.loc[:,['A', 'C']]) # 访问 所 有 行 中 的 A、C 两 列 
print(df.loc['2014 - 01 -03',['A', 'D']]) # 访问 '2014 - 01 - 03' 行 中 的 A 和 D 列 

Print(df. iloc[0,0]) # 按照 下 标 访问 ,访问 第 1 行 的 第 1 列 元 素 
Print(df. iloc[[1,3],1]) E 按照 下 标 访问 ,访问 第 2、4 行 的 第 2 列 元 素 
print(df. ix[1:3,['B', 'C']])# 混合 索引 名 和 下 标 两 种 访问 方式 ,访问 第 2 到 第 3 行 的 B、C 两 列 
print(df. ix[[0,1],[0,1]]) # 访问 前 两 行 前 两 列 的 元 素 ( 共 4 个 ) 
print(df[df.B>5]) * 访问 所 有 B 列 数值 大 于 5 的 数据 


对 于 DataFrame 中 的 NaN 值 , Pandas 也 提供 了 实用 的 处 理 方法 ,为 了 演示 对 
NaN 的 处 理 , 先 为 目前 的 DataFrame 添加 NaN ffl: 


df['E'] = pd.Series(np.arange(1,7), index = pd. date range( '20140101', periods = 6) ) 
df['F'] = pd.Series(np.arange(1, 5), index = pd. date range( '20140102', periods = 4) ) 


print(df) 
这 时 的 df 是 : 
A B C DEF 

2014-01-01 0 1 2 3 1 NaN 
2014 - 01 - 02 4 5 6 7 2 1.0 
2014-01-03 8 9 10 11 3 2.0 
2014—01-04 12 13 14 15 4 3.0 
2014—01- 05 16 17 18 19 5 4.0 
2014-01-06 20 21 22 23 6 NaN 


通过 dropnaO (丢弃 NaN 值 ,可 以 选择 按 行 或 按 列 丢弃 ) 和 fillna() 来 处 理 ( 填 充 
NaN 部 分 ): 
print(df.dropna()) 


print(df.dropna(axis = 1)) 
print (df. fillna(value = 'Not NaN’) ) 


B 
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对 两 个 DataFrame 可 以 进行 拼接 (或 者 说 合并 ) ,用 户 可 以 为 拼接 指定 一 些 参数 : 


df1 = pd. DataFrame(np. ones((4,5)) * 0，columns= [ 'a', 'b', 'c', d', 'e']) 
df2 = pd. DataFrame(np. ones((4,5)) * 1, columns = [ 'A', 'B', 'C', 'D', 'E']) 


pd3 = pd. concat([d£f1,df2],axis = 0) £o 按 行 拼接 

print(pd3) 

pd4 = pd. concat ([df1,d£2],axis = 1) # 按 列 拼接 

print(pd4) 

pd3 = pd. concat([df1,df2],axis = 0,ignore index = True) # 拼接 时 丢弃 原来 的 index 
print(pd3) 

pd. join = pd. concat([d£1, df2], axis = 0, join = 'outer') # 类 似 SOL 中 的 外 连接 
print(pd join) 

Pd. join = pd. concat([df1,d£2], axis = 0, join = 'inner') # 类 似 SOL 中 的 内 连接 
print(pd join) 


对 于 “拼接 ”, 其 实 还 有 另 一 种 方法 一 一 append() ,不 过 append OO All concat O Z [i] 
有 一 些小 差异 ,有 兴趣 的 读者 可 以 做 进一步 的 了 解 ,这 里 就 不 再 费 述 。 最 后 要 提 到 
Pandas 自 带 的 绘图 功能 (这 里 导入 matplotlib 只 是 为 了 使 用 show() 方 法 显示 图 表 ) ， 


from matplotlib import pyplot as plt 


df = DataFrame(abs(np. random. randn(4,5)), 
columns = [ 'Students', Doctors', Teachers', Drivers', 'Trader'], 
index = ['Beijing', Shanghai', 'Hangzhou', Shenzhen']) 

df. plot(kind= 'bar') 

plt. show() 


绘图 结果 如 图 6-13 所 示 。 


E Students 
Doctors 
2.0| mE Teachers 
E Drivers 
C Trader 
1.5r 
Lor 
1 | 
0.0 EJ E a = 
£ E 2 3 
F E à z 
m á 8 2 
a E a 


图 6-13 绘制 DataFrame ERA 
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6.2.4 Matplotlib 


matplotlib. pyplot 是 Matplotlib 中 最 常用 的 模块 ,几乎 就 是 一 个 从 MATLAB 的 
风格 “迁移 ”过 来 的 Python 工具 包 。 每 个 绘图 函数 对 应 某 种 功能 ,例如 创建 图 形 、 创 
建 绘图 区 域 .设置 绘图 标签 等 。 

from natplotlib import pyplot as plt 

import numpy as np 

x= np. linspace( - np. pi, np. pi) 


plt.plot(x,np.cos(x), color = 'red') 
plt.show() 


这 是 一 段 最 基本 的 绘图 代码 ,plot() 方 法 会 进行 绘图 工作 ,用 户 还 需要 使 用 showO 
方法 将 图 表 显 示 出 来 ,最 终 的 绘制 结果 如 图 6-14 所 示 。 


1.00| 
0.75 
0.50) 
0.25 
0.00 
—0.25 
-0.50| 
-0.75 
-L00F = 


6-14 pyplot 绘制 cosO PRX 


在 绘图 时 ,用 户 可 以 通过 一 些 参 数 设置 图 表 的 样式 ,例如 颜色 可 以 使 用 英文 字母 
(表示 对 应 颜色 ) RGB 数值 .十 六 进 制 颜色 等 方式 来 设置 ,线条 样式 可 设置 为 “: "OR 
示 点 状 线 )“-”( 表 示 实 线 ) 等 ,点 样式 还 可 设置 为 ". ”( 表 示 圆 点 )、“s”( 方 形 )、“o”( 圆 
形 ) 等 。 用 户 可 以 通过 这 前 3 种 默认 提供 的 样式 直接 进行 组 合 设置 ,这 里 使 用 一 个 参 
数字 符 串 ,第 一 个 字母 为 颜色 ,第 二 个 字母 为 点 样式 ,最 后 是 线段 样式 : 


x= np. linspace(0, 2 * np.pi, 50) 
plt.plot(x, np.sin(x), c:', 

x, np. sin(x- np.pi/2), b- .') 
plt. show() 
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另外 ,用 户 还 可 以 添加 X/ Y 轴 标 签 、 函 数 标签 ,图表 名 称 等 ,效果 见 图 6-15. 


x= np. random. randn(20) 

Y= np. randon. randn(20) 

x1 = np. random. randn(40) 

yl = np. random. randn(40) 

E 绘制 散 点 图 

plt. scatter(x, y, s = 50, color = 'b', marker = '<', label = 'S1') + s#RAMARYT 

plt. scatter(x1, yl, s = 50,color = 'y' marker = 'o',alpha- 0.2, label = 'S2') # alpha 表示 透明 度 
plt. grid(True) # 为 图 表 打 开 网 格 效 果 
plt.xlabel('x axis') 

plt. ylabel('y axis') 


plt. legend() + 显示 图 例 
plt. title( 'My Scatter’) 
plt. show() 
My Scatter 
asi 
3 S2 
2 
< 
4 
$ 1 “aT 
^0 * foe t at 
< < 
| 
4 < 
-2 
=] =] 0 1 2 3 


x axis 
图 6-15 为 散 点 图 添加 标签 与 名 称 


为 了 在 一 张 图 表 中 使 用 子 图 ,在 调用 plot() 函 数 之 前 需要 先 调用 subplot()。 该 
函数 的 第 一 个 参数 代表 子 图 的 总 行 数 ,第 二 个 参数 代表 子 图 的 总 列 数 ,第 三 个 参数 代 
表 子 图 的 活跃 区 域 。 绘 图 效果 见 图 6-16 。 


x= np. linspace(0, 2 * np.pi, 50) 

plt. subplot(2, 2, 1) 

plt.plot(x, np. sin(x), 'b',label- 'sin(x)') 
plt. legend() 

plt.subplot(2, 2, 2) 

plt.plot(x, np.cos(x), 'r', label= 'cos(x)') 
plt. legend() 

plt.subplot(2, 2, 3) 
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plt.plot(x, np.exp(x), 'k', label = 'exp(x)') 
plt.legend() 

plt. subplot(2, 2, 4) 

plt.plot(x, np.arctan(x), 'y', label = 'arctan(x)') 
plt. legend( ) 

plt. show() 


——sin(x) —— cos(x) 
0.5 0.5} 
0.0 0.0} 
-0.5r -0.5r 
-1.0b, A A -1.05, 
0 2 4 6 0 2 4 6 
500+ ——exp(x) 
400 
300r 
200 
100r 
——arctan(x) 
Otr J} 00t " " 
0 2 4 6 0 2 4 6 
图 6-16 绘制 子 图 


另外 几 种 常用 的 图 表 绘 图 方式 如 下 : 


# 条 形 图 

x= np.arange(12) 

y = np. random. rand(12) 

labels = ['Jan', Feb', Mar', Apr', May', Jun', Jul', Aug', Sep', Oct', Nov', Dec'] 
plt. bar(x, y,color = ‘blue’, tick label- labels) + 条 形 图 (柱状 图 ) 

# plt.barh(x,y,color = 'blue', tick label- labels) # HA 
plt.title('bar graph') 


plt. show() 

+ HE 

size = [20,20,20, 40] # 各 部 分 占 比 
plt. axes(aspect = 1) 

explode = [0.02,0.02,0.02,0.05] # 突出 显示 


plt. pie(size, labels = ['A', 'B', 'C', 'D'], autopct = '% .0f % % ', explode = explode, shadow = True) 
plt.show() 


# 直方 图 

x 7 np. random. randn(1000) 
plt.hist(x, 200) 
plt.show() 


Python 网 络 礁 虫 实战 
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最 后 要 提 到 的 是 3D 绘图 功能 ,绘制 三 维 图 像 主 要 通过 mplot3d 模块 实现 , 它 主 
要 包含 4 个 大 类 , 即 mpl_toolkits. mplot3d. axes3d() , mpl. toolkits. mplot3d. axis3d()、 


mpl toolkits. mplot3d. art3d() ,mpl toolkits. mplot3d. proj3d() 。 
axes3d() 下 面 主要 包含 了 实现 绘图 的 各 种 类 和 方法 ,通过 下 面 的 语句 导入 : 


from mpl toolkits.mplot3d.axes3d import Axes3D 


导入 后 开始 作 图 : 


from mpl toolkits.mplot3d import Axes3D 


fig- plt.figure() # 定义 figure 
ax = Axes3D(fig) 

x= np. arange( - 2, 2, 0.1) 

y=np.arange( - 2, 2, 0.1) 

X, Y=np.meshgrid(x, y) + 生成 网 格 数据 
Z-2X**2 + Y**2 

ax. plot_surface(X, Y, Z ,cmap = plt.get_cmap('rainbow')) + 绘制 3D 曲面 
ax. set_zlim( - 1, 10) # 2 Hh X a] 
plt.title('3d graph’) 

plt. show() 


运行 代码 绘制 出 的 图 表 如 图 6-17 所 示 o 


3d graph 


1540 


1.0 
0.5 
5 0.0 


1359 20715 


图 6-17 3D 绘 图 下 的 z=x +y 函数 曲线 
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在 Matplotlib 中 还 有 很 多 实用 的 工具 和 细节 用 法 (例如 等 高 线 图 、 图 形 填 充 、 图 
形 标记 等 ), 用 户 在 有 需求 的 时 候 查 询 用 法 和 API 即 可 。 掌 握 上 面 的 内 容 即 可 绘制 一 
些 基础 的 图 表 , 便 于 进一步 的 数据 分 析 或 者 做 数据 可 视 化 应 用 。 如 果 用 户 需要 更 多 
图 表 样 例 , 可 以 参考 官方 的 页 面 “https://matplotlib. org/gallery. html”, 其 中 提供 了 
十 分 丰富 的 图 表示 例 。 


6.2.5 SciPy 5j SymPy 


SciPy 也 是 基于 NumPy 的 库 , 它 包含 数学 、 科 学 工程 计算 中 众多 的 常用 的 函数 ， 
例如 线性 代数 、 常 微分 方程 数值 求解 信号 处 理 ` 图 像 处 理 、 稀 朴 和 矩阵 等 。SymPy 是 数 
学 符号 计算 库 ,可 以 进行 数学 公式 的 符号 推导 。 例 如 求 定 积分 : 

from sympy import integrate 

from sympy.abc import a,x,y 

a= integrate(x, 

(x,0,2.0) 


) 
print(a) + 输出 为 2.0 


Scipy 和 SymPy 在 信号 处 理 、 概 率 统计 等 方面 还 有 其 他 更 复杂 的 应 用 ,由 于 超出 
了 本 书 的 范围 ,在 此 就 不 做 讨论 了 。 


6.3 本章 小 结 


Python 在 数据 挖掘 和 科学 计算 等 领域 的 发 展 十 分 迅猛 ,除了 本 章 中 关注 的 文本 
分 析 和 数据 统计 等 领域 以 外 ,还 可 以 对 抓 取 到 的 多 媒体 数据 进行 处 理 (例如 使 用 
Python 中 的 图 像 处 理 包 进行 一 些 基 本 的 处 理 )。 另 外 ,Python 与 机 器 学 习 的 紧密 结 
合 使 得 在 大 量 数 据 集 上 做 高 准确 度 、 高 智能 化 的 分 析 成 为 可 能 。 在 第 7 章 中 将 回 到 
抓 取 本 身 ,讨论 更 多 的 抓 取 思 路 和 方式 。 


m x 
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身 就 是 十 分 灵活 的 ,只 要 结合 合适 的 应 用 场景 和 开发 工具 就 能 获得 意 想 不 到 的 效果 。 
在 这 一 童 中 将 广 开 思 路 ,从 各 个 角度 讨论 候 虫 程序 的 更 多 可 能 性 ,了 解 新 的 网 页 数据 
定位 工具 ,并 介绍 在 线 息 虫 平台 和 有 息 虫 部 署 等 方面 的 知识 。 


7.1 更 灵活 的 仆 虫 一 一 以 微 信 数 据 的 抓 取 为 例 


7.1.1 用 Selenium 抓 取 Web 微 信 信 息 


微 信 群 聊 功 能 是 微 信 中 十 分 常用 的 一 个 功能 ,与 QQ 不 同 的 是 , 微 信 群 聊 并 没有 
显示 群 成 员 性 别 比例 的 选项 ,如 果 用 户 对 所 在 群 聊 的 成 员 性 别 分 布 感 兴趣 ,无 法 得 到 
直观 的 (类 似 图 7-1 所 示 ) 信 息 。 对 于 人 数 很 少 的 群 而 言 , 可 以 自行 统计 ,但 如 果 群 成 
员 太 多 , 那 就 很 难 方便 地 得 到 性 别 分 布 结果 。 这 个 问题 也 可 以 使 用 一 种 灵活 的 疏 虫 
方法 来 解决 , 即 利用 微 信 的 网 页 端 版 本 ,用户 可 以 通过 Selenium 操控 浏览 器 ,通过 解 
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析 其 中 的 群 成 员 信息 来 进行 成 员 性 别 的 分 析 。 


< EMRA 群 成 员 


2 活跃 群 成 员 
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图 7-1 QQ 群 查看 成 员 性 别 比例 

首先 考虑 一 下 整体 思路 ,通过 Selenium 访问 网 页 微 信 (wx. qq. com) ,用户 可 以 
在 网 页 中 打开 群 聊 并 查看 其 成 员 头像 , 通 过 头像 旁 的 性 别 分 类 图 标 来 完成 对 群 成 员 
性 别 的 统计 ,最 终 通过 统计 出 的 数据 来 绘制 性 别 比 例 图 。 

在 Selenium 访问 到 wx. qq. com 时 ,用 户 首先 需要 扫 码 登录 ,登录 成 功 后 还 需 调 
出 想 要 统计 的 群 获 子 页 面 , 这 些 操作 都 需要 时 间 ,因此 在 抓 取 正式 开始 之 前 需要 让 程 
序 等 待 一 段 时 间 ,最 简单 的 实现 方法 就 是 使 用 time. sleepQ 。 

通过 Chrome 工具 分 析 网 页 ,可 以 发 现 群 成 员 头像 的 XPath 路 径 都 是 类 似 于 
*// * [(&id— "mmpop chatroom members" ]/div/div/div[ 1 ]/div[ 3 ]/img" 3x FÉ fI Ht 
式 。 通 过 XPath 定位 元 素 后 ,用 户 通过 click() 方 法 模拟 一 次 单 击 , 之 后 再 定位 成 员 
的 性 别 图 标 , 便 能 够 获取 性 别 信息 ,将 这 些 数据 保存 在 dict 结构 的 变量 中 ,最 终 再 通 
过 已 保存 的 dicc 数据 作 图 , 见 例 7-1. 

【 例 7-1] WechatSelenium. py. ffi JH Selenium 工具 分 析 微 信和 群 成 员 的 性 别 。 


| 第 7 章 ”更 录 活 和 更 多 样 的 肥 虫 (20 引 


from selenium import webdriver 

import selenium. webdriver, time, re 

from selenium. common. exceptions import WebDriverException 
import logging 

import matplotlib. pyplot as pyplot 

from collections import Counter 


path of chromedriver = ‘your path of chromedriver' 
driver = webdriver.Chrome(executable path- path of chromedriver) 


logging.getLogger().setLevel(logging. DEBUG) 


if name  -- 


try: 
driver. get( https: //wx. qq. com’) 
time.sleep(20) # 等 待 扫描 QRCode 并 打开 群 聊 页 面 
logging.debug('Starting traking the webpage') 
group elem = driver.find element by xpath( '// * [ @ id = "chatArea" ]/div[1]/div[2]/ 
div/span') 
group elem.click() 
group num = int(str(group elem.text)[1: - 1]) 
# group num = 64 
logging. debug( 'Group num is {}'. format(group num)) 


gender dict = ('MALE': 0, 'FEMALE': 0, 'NULL': 0} 
for i in range(2, group num * 2): 
logging. debug( Now the {}th one'. format(i- 1)) 
icon = driver. find element by xpath('// * [@id="mmpop chatroom members" ]/div/ 
div/div[1]/div[ % s]/img' % i) 
icon.click() 
gender raw = driver. find element by xpath( '// * [ @ id = "mmpop profile"]/div/ 
div[2]/div[1]/i'). get_attribute( ‘class') 
if 'women' in gender raw: 
gender dict[ 'FEMALE'] += 1 
elif 'men' in gender raw: 
gender dict[ MALE'] += 1 
else: 
gender dict[ 'NULL'] +=1 


myicon = driver. find element by xpath( '/html/body/div[2]/div/div[1]/div[1]/ 
div[1]/ing') 

logging. debug( Now click my icon') 

myicon.click() 

time. sleep(0.7) 
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logging. debug( 'Now click group title') 
group_elem.click() 
time. sleep(0.3) 


print(gender dict) 
print(gender dict. items()) 
counts = Counter(gender dict) 


pyplot. pie([v for v in counts. values()], 
labels = [k for k in counts. keys() ], 
pctdistance - 1.1, 
labeldistance = 1.2, 
autopct = '%1.0£% % ') 

pyplot. show() 


except WebDriverException as e: 
print (e. msg) 


在 上 面 的 代码 中 需要 解释 的 主要 是 Matplotlib 的 使 用 和 Counter 这 个 对 象 。 
pyplot 是 Matplotlib 的 一 个 子 模 块 , 这 个 模块 提供 了 和 MATLAB 类 似 的 绘图 API, 
可 以 使 得 用 户 快捷 地 绘制 2D 图 表 。 其 中 一 些 主要 参数 的 意义 如 下 。 
labels; 定义 饼 图 的 标签 (文本 列表 )。 
labeldistance: 文本 的 位 置 离 远 点 有 多 远 ,例如 1.1 指 1.1 倍 半径 的 位 置 。 
autopct; 百分比 文本 的 格式 。 
shadow: 饼 是 否 有 阴影 。 
petdistance: 百分比 的 文本 离 圆心 的 距离 。 
startangle: 起 始 绘制 的 角度 。 默 认 是 从 X 轴 正 方向 逆 时 针 画 ,一 般 会 设 定 为 
90, 即 从 立轴 正方 向 画 起 。 
radius: 饼 图 半径 。 

Counter 可 以 用 来 跟踪 值 出 现 的 次 数 ,这 是 一 个 无 序 的 容器 类 型 , 它 以 字典 的 键 
值 对 形式 存储 计数 结果 ,其 中 元 素 作为 key, 其 计数 (出 现 次 数 ) 作 为 value, 计 数值 可 
以 是 任意 非 负 整数 。Counter 的 常用 方法 如 下 : 


from collections import Counter 


# 以 下 是 几 种 初始 化 Counter 的 方法 
c= Counter() # 创建 一 个 空 的 Counter 类 
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print(c) 
c= Counter( 

['Mike', 'Mike', ‘Jack’, 'Bob', ‘Linda’, Jack', 'Linda'] 
) # A—T IX fUXES (list, tuple FERH ) 创 建 


print(c) 

c= Counter(('a': 5, 'b': 3}) # 从 一 个 字典 对 象 创建 
Print(c) 

c=Counter(A=5, B=3, C=10) + 从 一 组 键 值 对 创建 
print(c) 


# 获取 一 段 文字 中 出 现 频率 前 10 的 字符 

S7 'I love you, I like you, I need you'. lower() 
ct = Counter(s) 

print(ct.most common(3)) 


# BATE DUE BORM T A IP GE ae PROEL LNAK 
print(list(ct.elements())) 


# 使 用 Counter() 对 文件 计数 
with open( 'tobecount', 'r') as f: 

line count = Counter(f) 
print(line count) 


上 面 代码 的 输出 为 : 


Counter() 

Counter(('Mike': 2, 'Jack': 2, 'Linda': 2, 'Bob': 1}) 

Counter(('a': 5, 'b': 3}) 

Counter(('C': 10, ‘A’: 5, 'B': 3}) 

LC 8), Cis 4), Co', 4)] 

[3L 3555 85, 52 2902 75, 75 55 1.55 Wt, BE (5 af, Tol. Tolling tei, Taf, Ten, 
'e', Y, Y b "u', ^nt; ta", "Ay p ki k 'd'] 

Counter({ 'dog\n': 3, ‘cat\n': 2, 'whale\n': 2, ‘lion\n': 1, 'tiger\n': 1, 'dolphin\n': 1, 'cat': 
1}) 


[£1 collections 模块 是 Python 的 一 个 内 置 模块 ,其 中 包含 了 dict, set, lists 
tuple 以 外 的 一 些 特殊 的 容器 类 型 。 

。 OrderedDict 类 : 有 序 字 典 ,是 字典 的 子 类 。 

* namedtuple() 函 数 : 命名 元 组 ,是 一 个 工厂 函数 。 

。 Counter 类 : 计数 器 ,是 字典 的 子 类 。 

。 deque: 双向 队列 。 

* defaultdict; 使 用 工厂 函数 创建 字典 , 带 有 默认 值 。 
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运行 这 个 Selenium 抓 取 程序 并 扫 码 登录 微 信 ,打开 希望 统计 分 析 的 群 获 页 面 ， 
等 程序 运行 完毕 后 就 会 看 到 图 7-2 所 示 的 饼 状 图 ,显示 了 当前 群 聊 的 性 别 比例 ,实现 
了 和 QQ 群 类 似 的 效果 。 


MALE 
62% 


4% NULL 


35% 
FEMALE 


图 7-2  pyplot 绘制 的 微 信 群 成 员 性 别 分 布 饼 状 图 


7.1.2 基于 Python 的 微 信 API 工具 


虽然 上 面 的 程序 实现 了 想 要 的 目的 ,但 总 体 来 看 还 很 简单 ,如 果 需 要 对 微 信 中 的 
其 他 数据 进行 分 析 , 很 可 能 需要 重 构 绝 大 部 分 代码 。 另 外 ,使 用 Selenium 模拟 浏览 
器 的 速度 毕 竞 很 慢 , 如 果 结 合 微 信 提供 的 开发 者 API, 则 可 以 达到 更 好 的 效果 。 如 果 
能 够 直接 访问 API, 这 个 时 候 的 “ 扑 虫 " 抓 取 的 就 是 纯粹 的 网 络 通 信人 信息, 而 不 是 网 页 
的 元 素 了 。 

itchat 是 一 个 简洁 、 高 效 的 开源 微 信 个 人 号 接口 库 ,仍然 通过 pip 安装 (当然 也 可 
以 直接 在 PyCharm 中 使 用 GUI 安装 ) 。itchat 的 设计 非常 方便 ,例如 使 用 itchat 给 微 
信 文 件 助手 发 信息 : 

import itchat 


itchat.auto login() 
itchat.send('Hello', toUserName - 'filehelper') 


auto_login() 方 法 即 微 信 登录 ,可 附带 hotReload 参数 和 enableCmdQR 参数 。 如 
果 设 置 为 True, 则 分 别 开 启 短期 免 登录 和 命令 行 显示 二 维 码 功 能 。 具 体 来 说 ,如 果 
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给 auto_login() 方 法 传人 值 为 真 的 hotReload, 即 使 程序 关闭 ,在 一 定时 间 内 重新 开启 
也 可 以 不 用 重新 扫 码 。 该 方法 会 生成 一 个 静态 文件 itchat. pkl, 用 于 存储 登录 的 状 
态 。 如 果 给 auto_login() 方 法 传人 值 为 真 的 enableCmdQR, 那 么 就 可 以 在 登录 的 时 
候 使 用 命令 行 显示 二 维 码 ,这 里 需要 注意 的 是 ,在 默认 情况 下 控制 台 背 景色 为 黑色 ， 
如 果 背 景色 为 浅 色 (白色 ) ,可 以 将 enableCmdQR Wt Jy ff fi 

get_friends() 方 法 可 以 帮助 用 户 轻松 地 获取 所 有 的 好 友 ( 其 中 好 友 首 位 是 自己 ， 
如 果 不 设 置 update 参数 , 则 会 返回 本 地 的 信息 ): 


friends = itchat.get friends(update = True) 


T 


借助 pyplot 模块 以 及 上 面 介绍 的 itchat 使 用 方法 ,用 户 就 能 够 编写 一 个 简洁 、 实 
用 的 微 信 好 友 性 别 分 析 程 序 。 
【 例 7-2】 itchatWX. py, 使 用 第 三 方 库 分 析 微 信 数 据 。 


import itchat 

from collections import Counter 
import matplotlib. pyplot as plt 
import csv 

from pprint import pprint 


def anaSex( friends): 
sexs = list(map(lambda x: x[ 'Sex'], friends[1:])) 
counts = list(map(lambda x: x[1], Counter(sexs). items())) 
labels = ['Unknow', ‘Male’, 'Female'] 
colors = [ 'Grey', 'Blue', 'Pink'] 
plt.figure(figsize- (8, 5), dpi= 80) # 调整 绘图 大 小 
plt.axes(aspect = 1) 
* 绘制 饼 图 
plt.pie(counts, 
labels = labels, 
colors = colors, 
labeldistance = 1.1, 
autopct- '%3.1£% %', 
shadow = False, 
startangle = 90, 
petdistance = 0.6 
) 
plt. legend(loc = 'upper right',) 
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plt. title( "The gender distribution of {}\'s WeChat Friends’. format( friends[0][ 'NickName']) ) 
plt. show( ) 


def anaLoc( friends): 
headers = ['NickName', 'Province', 'City'] 
with open('location.csv', 'w', encoding = 'utf - 8', newline- '', ) as csvFile: 
writer = csv. DictWriter(csvFile, headers) 
writer. writeheader() 
for friend in friends[1:]: 
rows {} 
row[ 'NickName'] = friend[ 'RemarkName'] 
row[ 'Province'] = friend[ Province'] 
row[ 'City'] = friend[ City'] 
writer.writerow(row) 
if name  -- ' main ': 
itchat.auto login(hotReload = True) 
friends = itchat.get friends(update = True) 
anaSex(friends) 
anaLoc(friends) 
pprint(friends) 
itchat. logout() 


其 中 ,anaLoc() ,anaSex() 分 别 为 分 析 好 友 性 别 与 分 析 好 友 地 区 的 函数 。anaSex() 会 
将 性 别 比例 绘制 饼 图 ,anaLoc() 函 数 则 将 好 友 及 其 所 在 地 区 信息 保存 到 CSV. 文件 
中 。 这 里 需要 稍微 解释 下 面 的 代码 : 


sexs= list(map(lambda x: x['Sex'], friends[1:])) 
counts = list(map(lambda x: x[1], Counter(sexs). items())) 


这 里 的 mapO 〇 是 Python 中 的 一 个 特殊 函数 ,原型 为 map(func, * iterables) , PA 
数 执行 时 对 * iterables( 可 迭代 对 象 ) 中 的 item 依次 执行 function(item) ,返回 一 个 迭 
代 器 ,之 后 使 用 list() 变 为 列表 对 象 。lambda 可 以 理解 为 “匿名 函数 ”, 即 输入 x, 返 回 
x 的 “Sex” 字 段 值 。 

friends 是 一 个 以 dict 为 元 素 的 列表 ,由 于 其 首位 元 素 是 用 户 自己 的 微 信 账 户 , 所 
以 使 用 friends[1:] 获 得 所 有 好 友 的 列表 。 因 此 ,list(map (lambda x: x['Sex'], 
friends[1:])) 将 获得 一 个 所 有 好 友 性 别 的 列表 , 微 信 中 好 友 的 性 别 值 包括 Unkown, 
Male 和 Female 3 种 ,其 对 应 的 数值 分 别 为 0、1、2。 如 果 输 出 该 sexs 列表 ,得 到 的 结 
AR. 
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第 2 行 通过 Collection 模块 中 的 Counter() 对 这 3 种 不 同 的 取 值 进行 统计 ， 
Counter 对 象 的 items() 方 法 返回 的 是 一 个 元 组 的 集合 ,该 元 组 的 第 一 维 元 素 表示 键 ， 
Hl 0、1、2, 该 元 组 的 第 二 维 元 素 表 示 对 应 的 键 的 数目 ,并 且 该 元 组 的 集合 是 排序 过 的 ， 
即 其 键 按 照 0、1、2 的 顺序 排列 ,最终 通过 map() 方 法 的 匿名 函数 执行 ,就 可 以 得 到 这 
3 种 不 同性 别 的 数目 。 

main 中 的 itchat. logout() 为 注销 登录 状态 。 在 执行 该 程序 后 ,用 户 就 能 看 到 绘 
制 出 的 性 别 比例 图 ,如 图 7-3 所 示 。 


mmUnknow 
Female == Male 
Female 


Unknow 


图 7-3 Ge fe RF Ac He UA SPT 
在 本 地 查看 location. csv 文件 ,结果 类 似 这 样 : 


王小明 ,北京 ,海淀 
李 小 狼 , 江 苏 ,无 锡 
陈 小 刚 ,陕西 ,延安 
张 辉 ,北京 ， 

刘强 ,北京 ,西城 


至 此 ,性 别 分 析 和 地 区 分 析 都 已 经 圆满 完成 。 仅 就 微 信 接 口 而 言 , 除 了 itchat 以 
外 ,Python 开发 社区 还 有 很 多 不 错 的 工具 。 例 如 wxPy、wxBot 等 ,它们 在 使 用 上 也 
非常 方便 。 对 微 信 接 口感 兴趣 的 读者 可 通过 网 络 做 更 深入 的 了 解 。 
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7.2.1 PyQuery 


PyQuery 这 个 Python J£ ,大 家 从 名 字 大 概 就 能 够 猜 到 ,这 是 一 个 类 似 于 JQuery 
的 东西 。 实 际 上 ,PyQuery 的 主要 用 途 是 以 类 JQuery 的 形式 来 解析 网 页 ,并且 支 持 
CSS 选择 器 ,使 用 起 来 与 XPath 和 BeautifulSoup 一 样 简洁 ,方便 。 在 前 面 的 内 容 中 
主要 使 用 XPath(Python 中 的 lxml 库 ) 和 BeautifulSoup(bs4 库 ) 来 解析 网 页 和 寻找 
TOR , 接 下 来 学 习 使 用 PyQuery 这 一 尚未 接触 的 工具 。 

【提示 】 JQuery 是 目前 最 流行 的 JavaScript 函数 库 ,JQuery 的 基本 思想 是 “ 选 
择 某 个 网 页 元 素 , 对 其 进行 一 些 操作 ”, 其 语法 和 使 用 基本 上 都 基于 这 个 思路 ,因此 将 
JQuery 的 形式 放 在 Python 网 页 解析 中 讲解 也 是 十 分 合适 的 。 

安装 PyQuery 依然 使 用 pipCpip install pyquery) ,下面 通 过 豆瓣 网 首页 的 例子 来 
介绍 它 的 基本 使 用 ,首先 是 PyQuery 对 象 的 初始 化 ,这 里 存在 几 种 不 同 的 初始 化 


WH: 
from pyquery import PyQuery as pq 
import requests 
ht = requests. get( ‘https: //www. douban. com/ ') . text + 获取 网 页 内 容 
doc = pa( ht) # BIE STR 
Print (doc('a')) 


# 输出 所 有 < a ></a > 结 点 

# < a href = "https :// www. douban. com/gallery/topic/3394/? from = hot topic anony sns" 
class -"rec topics name" > RA 4: PEENE AE F BSR MIT? < / a> 

# < a href ="https://www. douban. com/gallery/topic/892/? from = hot topic anony sns" 
class = "rec_topics_name" > 哪些 关于 书 的 书 是 值得 一 看 的 < / a> 

donus 


E 使 用 本 地 文件 初始 化 
doc = pq(filename = 'hi.html') 


# 直接 使 用 一 个 url 来 初始 化 
docl = pq('https://www. douban. com') 


print(docl( 'title')) 
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# 输出 : < title > 豆 因 </title> 


通过 JQuery 的 形式 ,以 CSS 选择 器 (可 使 用 Chrome 开发 者 工具 得 到 , 见 图 7-4) 


来 定位 网 页 中 的 元 素 。 


WE MER 


昨天 晚上 收 到 送 餐 员 的 指责 短信 | 
卖 的 时 候 ， 我 点 的 准时 达 ， 送 餐 


如 何 欣赏 一 座 哥 特 式 教堂 


除了 意 指 "上 海 "， 英 文 shanghai] 
个 恐怖 的 含义 


豆 准 9.1 分 零 差 评 韩 影 ! 大 师 之 作 
期 待 ! 


"成 为 作家 "的 秘密 ， 都 在 这 里 了 | 
写作 


乡村 旧闻 录 | 母亲 的 青春 之 影 与 = 


夏天 来 了 ， 衣 服 又 ”小 "了 ? 1 一 个 | 
的 经 验 分 享 


今 晚 我 有 空 | 豆瓣 9.1 分 ， 本 尼 的 


w-div class-"main"» 


><div class-"albums"».c/div» 
w«div class-"notes"» 


vans 
v «li class="first"> 
v «div class="title"> 
https://www.douban.conm/note/669885213/"> 谁 才 可 以 指责 一 个 不 够 
Edit text 
«p» Edit as HTML PFET ROR, SURIERDSA, BRAE.. 
</li> Delete element 
vd | 
TT Cut element =e atest: 
leg | Copy element 
vt Hide element Paste element 
<a hi Break on EHI £ Ime" 39", Rsh 
2 .... | CopyouterHTML 
e risit 
> <lic_<, Collapse children f Copy XPath 


ew — 
*<ti>-</ti> 
ere 
p<li>-</Ui> 
*<Li>-</Ui> 
<ul> 
</div> 
rafter 


-"anony-time" class="section">..</div> 
"anony-video" class-"section"».«/div» 


了 P div d-"anony-group" classo"sectlon"soc/aive 
图 7-4 通过 Chrome 开发 者 工具 复制 选择 器 
# 元 素 选择 


print(docl('# anony - sns > div > div. main > div > div. notes > ul > li. first > div. title > a')) 
# 一 种 简便 的 选择 器 表达 式 获 取 方 式 是 在 Chrome 的 开发 者 工具 中 选中 元 素 , 复 制 得 到 (Copy 


# selector) 


print(doci('div.notes'). find('li.first').find( ‘div. author’). text()) 
# 在 < div class = "notes"> 结 点 下 寻找 1i 结 点 且 class 为 first 的 结 点 ,输出 其 文本 
* find() 方 法 会 将 符合 条件 的 所 有 结 点 选择 出 来 


上 面 语句 的 输出 为 : 


<a href = "https://www. douban. com/note/669285810/"> 猫 咪 会 如 何 与 你 告别 </a> 


皇后 大 道 西 的 日 记 
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用 户 可 以 通过 定位 到 的 一 个 结 点 来 获取 其 子 结 点 : 


HERTHA 

print(docl( 'div.notes'). children()) 

# 在 子 结 点 中 查找 符合 class 为 title 这 个 条 件 的 结 点 
Print(docl( ‘div. notes’). children().find('.title')) 


上 面 的 语句 会 获得 所 有 < div class— " notes" »«/div > 下 的 子 结 点 ,第 2 句 则 将 获 
得 子 结 点 中 class 为 title 的 结 点 ,输出 为 : 


«ul» 

<li class = "first"> 

<div class = "title"> 

<a href = "https://www. douban. com/note/669285810/"» ffi bk 2: tn fa] 55 ff 4 9| «/a» 
</div> 
<div class = "author"> 
皇后 大 道 西 的 日 记 

</div> 

<p>2018 年 5 月 11 日, 星期五, 一周 里 最 清闲 的 一 天 。 上 午 没有 课 , 下 午 的 课 正 好 轮 到 不 
是 我 .…</p> 


</1i> 


</ul> 
<div class= "title"> 


<a href = "https: //www. douban. com/note/669285810/"> 猫 咪 会 如 何 与 你 告别 </a> 
</div> 


同样 ,可 以 获取 某 个 结 点 的 兄弟 结 点 ,通过 text() 方 法 来 获取 元 素 的 文本 内 容 : 


# 查 找 兄 弟 结 点 ,获取 文本 
print(docl('div.notes').find( li.first').siblings().text()) 


输出 为 : 


一 周 豆瓣 热门 图 书 | 《斯 通 纳 ) 之 后 ,他 用 这 部 书信 体 小 说 重 塑 了 罗马 皇帝 的 一 生 今 晚 我 有 空 | 
豆 因 9.1 分 ,本 尼 的 演技 可 以 说 是 超 神 了 谁 都 可 以 指责 一 个 不 够 善良 的 人 猫咪 会 如 何 与 你 告别 
一 周 豆瓣 热门 图 书 | 他 曾 是 嬉 皮 一 代 的 文化 偶像 ,代表作 在 沉寂 半 世 纪 后 首 出 中 文 版 如 何 欣赏 
一 座 哥 特 式 教堂 明明 想 写作 的 你 ,为 什么 迟 迟 没有 动笔 ? 海内 文章 谁 是 我 一 一 关于 我 所 理解 的 汪 
曾 祺 及 其 作品 乡村 旧闻 录 | 母亲 的 青春 之 影 与 苍老 之 门 


最 后 ,除了 子 结 点 .兄弟 结 点 以 外 ,还 可 以 获取 父 结 点 : 


# 查 找 父 结 点 

print(type(doci( 'div.notes'). find('1i.first').parent())) 
# 输出 : <class 'pyquery. pyquery. PyQuery> 

E 父 结 点 、 子 结 点 、 见 弟 结 点 都 可 以 使 用 find() 方 法 
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当 需 要 遍历 结 点 时 ,使 用 items() 方 法 来 获取 一 组 结 点 的 列表 结构 : 


# 使 用 items( ) 方 法 获取 结 点 的 列表 
li list = docl('div.notes').find('li'). items() 
forli inli list: 
print(li.text()) 
# 选取 1i 结 点 中 的 a 结 点 ,获取 其 属性 
print(li('a').attr('href')) 
# 另外 一 种 等 效 的 获取 属性 的 方法 
# print(li('a'). attr. href) 


输出 为 : 


除了 意 指 " 上 海 ", SEC shanghai 一 词 ,竟然 还 有 另 一 个 恐怖 的 含义 

benshuier 的 日 记 

上 海 开 埠 后 , 随 着 "贩卖 猪 仔 " 事 件 的 不 断 反 升 ,Shanghai 一 词 , 除 了 作 " 上 海 "地 名 …. 
https://www. douban. com/note/668572260/ 

一 周 豆瓣 热门 图 书 |《 斯 通 纳 ) 之 后 ,他 用 这 部 书信 体 小 说 重 塑 了 罗马 皇帝 的 一 生 
https://www. douban. com/note/670570293/ 

SERAS | 豆瓣 9.1 分 ,本 尼 的 演技 可 以 说 是 超 神 了 

https: //www. douban. com/note/670345306/ 

谁 都 可 以 指责 一 个 不 够 善良 的 人 

https: //www. douban. com/note/669885213/ 


PyQuery 还 支持 所 谓 的 伪 类 选择 器 ,其 语法 非常 用 户 友好 : 


# 其 他 的 一 些 选择 方式 

from pyquery import PyQuery as pq 

doci = pq( ‘https: / / www. douban. con') 

* 获取 < div class = "notes"> 类 的 第 一 个 子 结 点 下 的 第 一 个 "1i" 结 点 中 的 第 一 个 子 结 点 
Print(docl. find( ‘div. notes').find(':first- child').find('1i.first').find(':first- child')) 
print('- * '* 20) 

print(docl.find('div.notes').find('ul').find(':nth- child(3)')) 

# :nth- child(3) 获 取 第 3 个子 结 点 

print('- * '* 20) 

print(docl('p:contains(" Ej" )')) # 获取 内 容 包 含 " 上 海 " 的 p 结 点 


输出 为 : 


<div class= "title"> 
<a href = " https://www. douban. com/note/668572260/"> 除 了 意 指 " 上 海 ", 英文 
shanghai 一 词 ,竟然 还 有 另 一 个 铠 怖 的 含义 </a> 
</div> 
<a href = " https://www. douban. com/note/668572260/"> 除 了 意 指 " 上 海 ", 英文 shanghai 
一 词 ,竟然 还 有 另 一 个 铠 怖 的 含义 </a> 
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一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 


<P> 上 海 开 埠 后 , 随 着 "贩卖 猪 仔 "事件 的 不 断 发 生 , Shanghai 一 词 ,除了 作 " 上 海 " 地 名 .…</p> 
<li><a href = "https://www. douban. com/note/670345306/"> 今 晚 我 有 空 | 豆瓣 9.1 分 ， 
本 尼 的 演技 可 以 说 是 超 神 了 </a></1i> 


一 闪 一 闪 一 闪 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 一 关 


<p> 上 海 开 埠 后 , 随 着 "贩卖 猪 仔 "事件 的 不 断 发 生 ,Shanghai 一 词 ,除了 作 " 上 海 " 地 名 .…</p> 


由 上 面 的 基本 用 法 可 见 ,PyQuery 有 着 不 输 于 BeautifulSoup 的 简洁 ,其 函数 接 
口 设计 也 十 分 方便 ,可 以 将 它 作 为 与 lxml、BeautifulSoup Ff 91 AY JLA ME d 19] 9t ft pr 
LAs 


7.2.2. 在 线 疏 虫 应 用 平台 


随 着 疏 虫 技术 的 广泛 应 用 ,目前 还 出 现 了 一 些 旨 在 提供 网 络 数据 采集 服务 或 疏 
虫 辅助 服务 的 在 线 应 用 平台 ,这 些 服务 在 一 定 程度 上 能 够 帮助 用 户 减 少 一 些 编写 复 
杂 抓 取 程序 的 成 本 ,其 中 的 一 些 优 秀 产品 也 具有 很 强大 的 功能 。 国 外 的 import io 就 
是 一 个 提供 网 络 数据 采集 服务 的 平台 ,允许 用 户 通 过 Web 页 面 来 筛选 并 收集 对 应 的 
网 页 数据 ,另外 一 款 产品 “ParseHub” 则 提供 了 下 载 到 Windows, Mac OS 的 桌面 应 用 ,这 
个 应 用 基于 Firefox 开发 ,支持 页 面 结构 分 析 、 可 视 化 元 素 抓 取 等 多 种 功能 , 见 图 7-5。 

Pm — 


(€) (D. chromephappieontentviews/testianding hmi 


OO «rome» Projects > Test Running: "dcom... & = 


onoma €A Test Run has Finished! 
> main template 


oo| r1 
Exit the tost run 
‘Scrape results are located in the results pane below. 
Refer to our test run for more help. 


MWaitupto 60 seconds for elements to 


er This a live preview. When you are ready to run your project, click Get Data. 


API Tutoriais Contact 8 Vievals enabled © 


图 7-5 使 用 ParseHub 应 用 抓 取 京东 首页 的 商品 分 类 


在 Chrome 浏览 器 上 甚至 还 出 现 了 一 些 用 于 网 页 数据 抓 取 的 插件 (例如 比较 主 


流 的 Web Scraper). 


国内 的 网 络 数据 采集 平台 也 可 以 说 方兴未艾 , 八 爪 鱼 ( 见 图 7-6)、 神 箭 手 采集 平 
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台 ( 见 图 7-7)、 集 搜 客 等 都 是 具有 一 定 市 场 的 服务 平台 ,其 中 神 箭 手 主打 面向 开发 者 


fi 


[d 


民 务 (官方 介绍 是 “一 个 大 数据 和 人 工 智 能 的 云 操作 系统 ”) ,提供 了 一 系列 具有 很 


强 实用 价值 的 API, 同 时 还 提供 了 有 和 针对 性 的 云 候 虫 服务 ,对 于 开发 者 而 言 是 非常 方 


便 的 。 


OU ra- me wasto uere aanu ne mo i 2a 


无 需 编写 代码 就 能 采集 任意 网 站 


0 基础 ，30 秒 上 手 ，1 分 钟 拿 到 数据 


零 门槛 三 步 获取 数据 


不 慢 网 络 妥 息 技术 ， 也 可 经 松 采 集 数 据 


ix se fg 4x E nh v ROT f ff 


Wd 7-6 八 爪 鱼网 站 


EE 能 够 很 方便 地 解决 用 户 的 一 些 简 单 的 候 虫 需求 ,而 


一 些 API 服务 则 能 够 大 大 简化 


户 编写 仆 虫 的 流程 ,有 兴趣 的 读者 可 对 此 做 深入 了 


解 。 随 着 机 器 学 习 、 大 数据 技术 
更 大 的 利好 。 


7.2.3 使 用 urllib 


的 逐渐 发 展 , 数 据 采 集 服务 也 会 迎 来 更 广阔 的 市 场 和 


虽然 在 疏 虫 编写 中 大 量 使 用 到 的 是 requests, 但 由 于 urllib 是 老牌 的 HTTP 库 ， 
而 网 络 上 使 用 urllib 来 编写 聆 虫 的 样 例 也 十 分 繁多 ,因此 这 里 有 必要 讨论 一 下 urllib 
的 具体 使 用 。 在 Python 中 ,urllib 算是 一 个 比较 特殊 的 库 了 。 从 功能 上 说 ,urllib Æ 
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了 实战 


PAATI > me 


应 用 详情 


RRETA 


RRN 
2017-03-23 11:33:15 
2017-03-23 11:33:04 
2017-03-23 11:33:05 
2017-03-23 11:33:06 
2017-03-23 11:33:10 
2017-03-23 11:33:11 
2017-03-23 11:33:14 
2017-03-23 11:33:14 


2017-03-23 11:33:24 


是 用 于 操作 URL (主要 就 是 访问 URL) 的 Python 库 , 在 Python 2. x 版 本 中 分 为 
urllib 和 urllib2。 这 两 个 名 称 十 分 相近 的 库 的 关系 比较 复杂 ,简单 地 说 就 是 urllib2 
作为 urllib 的 扩展 而 存在 。 它 们 的 主要 区 别 如 下 : 

CD. urllib2 可 以 接收 Request 对 象 为 URL. 设置 头 信 息 , 修 改 用 户 代理 ,设置 


DIE 
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使 用 人 数 ; 615 人 更 新 时 间 : 2017-06-01 


article_content$ 
<p class="ttdd- Articde 
<p class~"titdd-Article 


<p classe"titdd- Article. 


<p classe"titdd 
<p classe "titdd-Articlo 


«p classe"text* stylo~ 


dd Article. 


article author& 
ma 
sn 
m» 


xE 
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图 7-7 AFFA ARRA X Ee d TL A 


cookie 等 。 与 之 相对 比 ,urllib 只 能 接收 一 个 普通 的 URL. 


(2) urllib 会 提供 一 些 比较 原始 、 基 础 的 方法 ,但 在 urllib2 中 并 不 存在 这 些 , 例 如 


urlencode() 方 法 。 


Python 2. x 中 的 urllib 库 可 以 实现 基本 的 GET 和 POST 操作 ,下 面 的 这 段 代 码 


根据 params 发 送 POST 请 求 。 


import urllib 
params = urllib.urlencode(('spam': 1, 'eggs': 2, 'bacon': 0}) 
f = urllib. urlopen("http://www. musi — cal. con/cgi — bin/query", params) 
print f.read() 


article topics ¢ 
[he S zn, 
(RR M.I. 
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在 Python 2. x 版 本 的 urllib2 中 ,urlopenQ) 方 法 也 是 最 为 常用 晶 最 简单 的 方法 ， 


它 打开 一 个 URL 网 址 ,url 参数 可 以 是 一 个 字符 串 或 者 是 


import urllib2 


response = urllib2. urlopen( http://www. baidu. com/') 


html = response. read() 
print htnl 


一 个 Request 对 象 : 


urlopen() 还 可 以 以 一 个 Request 对 象 为 参数 。 在 调用 urlopen() 后 ,对 请 求 的 
URL 返回 一 个 Response 对 象 , 用 户 可 以 用 read() 方 法 操作 这 个 Response. 


import urllib2 

req urllib2. Request( 'http: / /www. baidu. org/') 
response = urllib2. urlopen(req) 

the page = response. read() 


print the page 


上 面 代码 中 的 Request 类 描述 了 一 个 URL 请 求 , 它 的 定义 如 图 7-8 所 示 。 


class Request: 


def init (self, url, data=! he 


origin. req. hoste 


# unwra 
self, EA = unwrap(url) 


self. original, self. fragment = splittag(self. original) 


self. type = lione 


Self.host 
self.por 
Self. tunnel host = None 
self.data = data 


unverd fab Lent alse): 


eaders={}, 


"tyr host/pa 


图 7-8 Request 26 


其 中 ,url 是 一 个 字符 串 ,代表 一 个 有 效 的 URL; data 指定 了 发 送 到 有 


民 务 器 的 数据 ,使 


用 data 时 的 HTTP 请 求 是 唯一 的 , 即 POST, 没 有 data 时 默认 为 GET; headers 是 字 
典 类 型 ,这 个 字典 可 以 作为 参数 在 Request 中 直接 传 入 ,也 可 以 把 每 个 键 和 值 作为 参 


数 调 用 add_header() 方 法 来 添加 : 


import urllib2 
req = urllib2. Request( ‘http://www. baidu. com/') 
req. add_header( 'User- Agent', 'Mozilla/5.0') 

r = urllib2. urlopen(req) 


当 不 能 正常 处 理 一 个 Response 时 ,urlopen() 方 法 会 抛 出 一 个 URLError, 另 外 


217 


(的 Python tg e k KR 


一 种 异常 为 HTTPError. 是 在 特别 情况 下 被 抛 出 的 URLError 的 一 个 子 类 。 
URLError 通常 是 因为 没有 网 络 连接 (也 就 是 没有 路 由 到 指定 的 服务 器 ) 或 指定 的 服 
务 器 不 存在 时 抛 出 这 个 异常 ,例如 下 面 这 段 代 码 : 


import urllib2 
req = urllib2.Request( ‘http://www. wikipedial23. org/') 
try: 
response = urllib2. urlopen(req) 
except urllib2.URLError, e: 
print e.reason 


其 输出 为 : 
[Errno 8] nodename nor servname provided, or not known 


另外 ,因为 每 个 来 自 服务 器 的 响应 都 有 一 个 “status code" (状态 码 ), 有 了 时 对 于 不 
能 处 理 的 请 求 , urlopen() 将 抛 出 HTTPError 异常 。 典 型 的 错误 如 “404”( 没 有 找到 
页 面 )、“403”( 禁 止 请 求 ) .401( 需 要 验证 ) 等 。 


import urllib2 
req = urllib2. Request( 'http://www. wikipedia. org/notfound. html') 
try: 
response = urllib2. urlopen(req) 
except urllib2.HTTPError, e: 
print e.code 
print e.reason 
print e.geturl() 


上 面 代码 的 输出 为 : 


404 
Not Found 
https://en. wikipedia. org/notfound. html 


如 果 需 要 同时 处 理 HTTPError 和 URLError 两 种 异常 , 应 该 把 捕获 处 理 
HTTPError 的 部 分 放 在 URLError 的 前 面 ,原因 在 于 HTTPError 是 URLError 的 
子 类 。 

在 Python 3 中 ,urllib 库 整 理 了 2. x 版 本 中 urllib 和 urllib2 的 内 容 , 合 并 了 它们 
的 功能 ,并 最 终 以 4 个 不 同 模块 的 面貌 呈现 ,它们 分 别 是 urllib. request, urllib. error, 
urllib. parse,urllib. robotparser。Python 3 的 urllib 相对 于 2. x 的 版 本 更 为 简洁 ,如 
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果 说 一 定 要 在 这 些 库 中 做 一 个 选择 ,当然 应 该 首先 考虑 使 用 urllib(3. x 版 本 )。 

urllib. request 模块 主要 用 来 访问 网 页 等 基本 操作 ,是 最 常用 的 一 个 模块 。 例 如 
模拟 浏览 器 发 起 一 个 HTTP 请 求 ,这 时 就 需要 用 到 urllib. request 模块 。urllib 
. request 同时 也 能 够 获取 请 求 返 回 结 果 , 使 用 urllib. request. urlopen() 方 法 来 访问 
URL 并 获取 其 内 容 : 


import urllib. request 


url = "http://www. baidu. com" 

response = urllib. request. urlopen(url) 
html = response. read( ) 
print(html.decode('utf - 8')) 


这 样 会 输出 百度 首页 的 网 页 源 代 码 。 在 某 些 情况 下 ,请 求 可 能 因为 网 络 原因 无 
法 得 到 响应 。 因 此 ,用 户 可 以 手动 设置 超时 时 间 , 当 请 求 超时 时 ,用 户 可 以 采取 进 一 
步 措施 ,例如 选择 直接 丢弃 该 请 求 。 

import urllib. request 

url = "http://www. baidu. com" 

response = urllib. request. urlopen(url, timeout = 3) 


html = response. read( ) 
print(html.decode( 'utf - 8')) 


从 URL 下 载 一 个 图 片 也 很 简单 ,依旧 通过 Response 的 read() 方 法 来 完成 。 


from urllib import request 
url = 'https: //i. pinimg. com/736x/2aa/68/2c/aa682ca9c222b77c74a3875a8607c38d —— th- parallel — 
ontario. jpg’ 
response = request. urlopen(url) 
data = response. read( ) 
with open('pic.jpg', 'wb') as f: 
f.write(data) 


urlopen() 方 法 的 API 是 这 样 的 : 


urllib.request.urlopen(url, data = None, [timeout, ] *, cafile= None, capath = None, 
cadefault = False, context = None) 


B 
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其 中 ,url 为 需要 打开 的 网 址 ,data 为 POST 提交 的 数据 (如 果 没 有 data 参数 , 则 使 用 
GET 请 求 ), timeout 即 设置 访问 超时 时 间 。 用 户 还 要 注意 ,如 果 直 接 用 urllib 
. request 模块 的 urlopen() 方 法 获取 页 面 ,page 的 数据 格式 为 bytes 类 型 ,需要 用 
decode() 解 码 ,转换 成 str 类 型 。 
用 户 可 以 通过 一 些 HTTPResponse 方法 来 获取 更 多 信息 。 
* read() .readline() .readlines() ,fileno()、close(): 对 HTTPResponse 类 型 的 
数据 进行 操作 。 
。 infoO ; 返回 HTTPMessage 对 象 , 表 示 远 程 服务 器 返回 的 头 信 息 。 
* getcode(): 返回 HTTP 状态 码 。 如 果 是 HTTP 请 求 ,200 表示 请 求 成 功 
完成 。 
。 geturlO ; 返回 请 求 的 URL. 
这 里 用 一 段 代码 试 一 下 : 


from urllib import request 


url = 'http: //www. baidu. com' 
response = request. urlopen(url) 
print(type(response)) 
print(response.geturl()) 
print(response. info()) 

print (response. getcode( ) ) 


最 终 的 输出 见 图 7-9. 


«class "http. client.HITPResponse 
LL [www baidu. con. 


Dater mw.  Fae m o 
Conte... pam miimi. ssn." 
Transfer-Encoding: cnunked 
Connection: Close 
Vary: Accept-Encoding 
Set-Cookie: BAIDUID-CB0ECI722A502AD324F79264513F7ECE:FG-1; expires="* $l Mu. d 40:55:55 GNT; max-age-2147483647; path=/; donain=.baidu.com 
Set-Cookie: TREE MAS TA DST Es 和 OK Dh 35:55 GAT; nax-age=2147483647; pathe/; donain=.baidu.con 
Set-Cookie. * "WA SeT T sp neim Torente SS P, em -age=2147483647; path=/; domain=.baidu.com 
Set-Cookie: BUSVKIM-U; patne/ 
Set-Cookie: BD HOME-8; path=/ 
Set-Cookie: LS PSSID-L462 25080 2118] 1/091 20927; path=/; domain-,baidu,cum 
OTI DSP COR IVA OUR IND COM * 
: private 


Y. ascdalvh696319481bhac8899865 
Expires. eed 7 mL i 


图 7-9 Response 对 象 相关 方法 的 输出 
当然 ,用 户 还 可 以 设置 一 些 Headers 信息 ,模拟 成 浏览 器 去 访问 网 站 (正如 在 息 
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虫 开发 中 常 做 的 那样 ) 。 在 这 里 设置 一 下 User-Agent 信息 。 打 开 百 


意 一 个 网 站 ) ,然后 进入 Chrome 的 开发 者 模式 ( 按 F12 键 ), 这 时 会 ! 


切换 到 Network 选项 卡 ,输入 某 个 关键 词 ( 这 里 是 “mike”) ,之 后 单 击 


度 主页 (或 者 任 


1 现 一 个 窗口 。 
网 页 中 的 “百度 


一 下 ”按钮 ,让 网 页 发 生 一 个 动作 ,此 时 用 户 可 以 看 到 在 下 方 的 窗口 中 出 现 了 一 些 数 


据 。 将 界面 右上 方 的 标签 切换 到 “Headers”, 就 能 看 到 对 应 的 头 信息 
这 些 信息 中 找到 User-Agent 对 应 的 信息 。 接 着 将 它们 复制 出 来 , 作 


( 见 图 7-10) ,在 
为 自己 的 urllib 


. request 执行 访问 时 的 UA 信息 ,这 时 需要 用 到 request 模块 里 的 Request HRR“ 


pe maie 
装 ” 请 求 。 
m s 
[mr [me BEL S o y ver oem Pew 
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图 7-10 查看 Headers 信息 


编写 代码 如 下 : 


import urllib. request 


url 'https://www. wikipedia. org’ 
header = { 


‘User - Agent':'Mozilla/5.0 (X11; Fedora; Linux x86 64) AppleWebKit/537.36 (KHTML, like 


Gecko) Chrome/58.0.3029.110 Safari/537.36' 

) 

request = urllib.request.Request(url, headers = header) 
reponse = urllib. request. urlopen(request).read() 


fhandle = open("./zyang - htmlsample - 1.html","wb") 
fhandle. write( reponse) 
fhandle.close() 
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在 上 面 的 代码 中 给 出 了 要 访问 的 网 址 ,然后 调用 urllib. request. Request O 函数 
创建 一 个 Request 对 象 ,第 1 个 参数 传人 访问 的 URL, 之 后 传 入 headers 信息 ,最 后 
通过 urlopen() 打 开 该 Request 对 象 即 可 读 取 并 保存 网 页 内 容 。 在 本 地 打开 zyang- 
htmlsample-1. html 文件 , 即 可 看 到 维基 百科 的 页 面 , 见 图 7-11。 


The Free Encyclopedia 
English Espafiol 
5 578 000« articles. 1 391 000« artículos. 
Baw iw Wikipedia Deutsch 
1 096 000+ RE 2 187 000+ Artikel 
Pycckuiá Francais 
1 455 000+ crate 1 960 000+ articles 
Italiano 中 文 
1420 000+ voci 993 000+ 条目 
Portugués Polski 
982 000+ artigos 1 267 000+ haset 


Read Wikipedia in your language | 


Commons Wikivoyage 
Freely usable photos & more Free travel guide 


图 7-11 本 地 保存 的 HTML( 维 基 百 科 页 面 ) 


除了 访问 网 页 ( 即 HTTP 中 的 GET 请 求 ) ,用 户 在 进行 注册 、 登 录 等 操作 的 时 候 
也 会 用 到 POST 请 求 ,仍然 使 用 request 模块 中 的 Request 对 象 来 构建 一 个 POST 操 
作 , 代 码 如 下 : 


import urllib. request 
import urllib. parse 
url = 'https://account. example. con/user/signin?' 
postdata = ( 
‘username’: 'yourname', 


| 第 7 章 ”更 灵活 和 更 多 样 的 代 虫 (223) 
© 


'password': 'yourpw' 
} 
post = urllib. parse. urlencode(postdata) . encode( 'utf - 8') 
req = urllib. request. Request(url, post) 
r= urllib. request. urlopen(req) 


其 他 请 求 类 型 (例如 PUT) 可 以 通过 Request 对 象 这 样 实现 : 


import urllib. request 
data = 'some data’ 
req = urllib. request. Request(url = 'http://example.com:8080', data = data, method = 'PUT') 
with urllib. request. urlopen(req) as f: 
pass 
print(f.status) 
print(f.reason) 


urllib. parse 的 目标 是 解析 URL 字符 串 ,用户 可 以 使 用 它 分 解 或 合并 URL 字符 
串 。 这 里 试 着 用 它 来 转换 一 个 包含 查询 的 URL 地 址 。 


import urllib. parse 


url = 'https://www. google. com/search? q = mike&oq = mike&ags = chrome.. 69157j691601469157. 
35553037&sourceid = chrome&ie = UTF - 8' 

result = urllib. parse. urlparse(url) 

print(result) 

print(result.netloc) 

print(result.geturl()) 


这 里 使 用 了 urlparseO ,把 一 个 包含 搜索 查询 “mike” 的 Google URL 作为 参数 传 
给 它 , 最 终 它 返回 了 一 个 ParseResult 对 象 ,用 户 可 以 用 这 个 对 象 了 解 更 多 关于 URL 
的 信息 (例如 网 络 位 置 )。 上 面 代码 的 输出 如 下 : 


ParseResult(scheme = 'https', netloc = 'www.google.com', path= '/search', params = '', query- 'q= 
mike&oq = mike&aqs = chrome.. 69157j6916014j69157. 3555j0j7&sourceid = chrome&ie = UTF - 8', 
fragment = '') 


www. google. com 
https://www. google. com/search? q = mike&oq = mike&aqs = chrome.. 69i57j69i6014j69i57. 
355530j7&sourceid = chrome&ie = UTF - 8 


urllib. parse 也 可 以 在 其 他 场合 发 挥 作用 ,例如 使 用 Google 来 进行 一 次 搜索 : 
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import urllib. parse 

import urllib. request 

data = urllib.parse.urlencode(('q': 'OSCAR']) 
print(data) 

url = 'http://google. com/search' 

full url= url + '?' + data 

response = urllib. request. urlopen(full_url) 


其 实 使 用 urllib AL DA sé at — E (rj 8 B Ae, (| A8 urllib 编写 一 个 在 线 翻 译 程 
这 里 使 用 爱 词霸 翻译 来 达成 这 个 目标 ,首先 进入 爱 词霸 网 页 并 通过 Chrome T. 
具 来 检查 页 面 。 仍 然 选 择 Network 选项 卡 , 在 左 侧 输 入 翻译 内 容 , 并 观察 POST 请 
求 , 见 图 7-12。 
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图 712 爱 词霸 页 面 上 的 POST 请 求 
查看 Form Data 中 的 数据 ( 见 图 7-130 ,可 以 发 现 这 个 表单 的 构成 较为 简单 ,不 难 
通过 程序 直接 发 送 。 


v Form Data view source view URL encoded 
(empty) 
f zh 
t ja 
w: 爱 


E 7-13 受 词 霸 翻 译 的 表单 数据 
有 了 这 些 信息 ,结合 之 前 掌握 的 request 和 parse 模块 的 知识 ,就 可 以 写 出 一 个 简 
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import urllib. request as request 
import urllib. parse as parse 
import json 
if name _ . main "s 
query word- input(" 输 入 需 翻 译 的 内 容 : Ve") 
query_type = input(" 输 入 目标 语言 ,英文 或 日 文 : \t") 
query type map- { 
英文 :en'v 
"AS: ‘ja’, 
) 
url = 'http://fy. iciba. com/ajax. php?a = fy’ 
headers = { 
‘User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36' 
) 
formdata = ( 
k zh, 
't': query type map[query type], 
'w': query word, 


} 


* 使 用 urlencode ( ) 进 行 编码 
data = parse. urlencode(formdata).encode( 'utf - 8') 


* 创建 Request 对象 

eq = request.Request(url, data, headers) 
response 7 request. urlopen(req) 

# 读 取 信息 


content = response. read() . decode( ) 


* 使 用 JSON 


translate_results = json. loads(content) 


# 找到 翻译 结果 


translate results = translate results[ 'content'][ 'out'] 


# 输出 最 终 翻译 结果 
print(" 翻 译 的 结果 是 : \t%s" % translate results.split('«')[0]) 


运行 程序 ,输入 对 应 的 信息 就 能 够 看 到 翻译 的 结果 : 


输入 需 翻 译 的 内 容 : 我 爱 你 

输入 目标 语言 ,英文 或 日 文 : AK 

翻译 的 结果 是 : SEROLEMBATT 

urllib 还 有 两 个 模块 ,其 中 urllib. robotparser 模块 比较 特殊 , 它 是 由 一 个 单独 的 
RobotFileParser 类 构成 的 。 这 个 类 的 目标 是 网 站 的 robot. txt 文件 。 通 过 使 用 
robotparser 解析 robot. txt 文件 ,用 户 会 得 知 网 站 方面 认为 网 络 息 忠 不 应 该 访问 哪些 
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VIAE ,一般 使 用 can_fetch() 方 法 对 一 个 URL 进行 判断 。 另 外 还 有 urllib. error 这 个 
模块 , 它 主要 负责 “由 urllib. request 引发 的 异常 类 ”( 按 照 官方 文档 的 说 法 ),urllib 
.error 有 两 个 方法 , 即 URLError 和 HTTPError。 


官方 文档 在 介绍 urllib 库 的 最 后 推荐 人 们 尝试 第 三 方 库 ”requests” 一 一 一 个 高 
级 的 HTTP 客户 端 接口 ,不 过 熟悉 urllib 库 也 是 需要 的 ,这 也 有 助 于 人 们 理解 
requests 的 设计 。 


7.3 ”对 有 爬虫 的 部 署 和 管理 


7.3.1 配置 远程 主机 


使 用 一 些 强 大 的 候 虫 框架 (例如 前 面 曾 提 到 过 的 Scrapy 框架 ) 可 以 开发 出 效率 
高 ,扩展 性 强 的 各 种 息 虫 程序 。 在 候 取 时 ,用 户 可 以 使 用 自己 手头 的 机 器 来 完成 整个 
运行 的 过 程 , 但 问题 在 于 机 器 资源 是 有 限 的 ,尤其 是 当 爬 取 数据 量 比较 大 的 时 候 , 直 
接 在 自己 的 计算 机 上 运行 仆 虫 不 仅 不 方便 ,也 不 现实 。 这 时 一 个 不 错 的 方法 就 是 将 
本 地 的 怜 虫 部 署 到 远程 服务 器 上 来 执行 。 

在 部 署 之 前 ,用 户 首先 需要 拥有 一 台 远 程 服务 器 ,购买 VPS 是 一 个 比较 方便 的 
选择 。 所 谓 的 虚拟 专用 服务 器 (Virtual Private Server, VPS) ,是 将 一 台 服 务 器 分 区 
成 多 个 虚拟 专 享 服务 器 的 服务 。 因 而 每 个 VPS 都 可 以 分 配 独立 公 网 TP 地 址 、 独 立 
操作 系统 ,为 用 户 和 应 用 程序 模拟 出 “独占 ”使 用 计算 资源 的 体验 。 这 么 听 起 来 ,VPS 
似乎 很 像 是 现在 流行 的 云 服务 器 ,但 二 者 并 不 相同 。 云 服务 器 (Elastic Compute 
Service, ECS) 是 一 种 简单 高 效 、 处 理 能 力 可 弹性 伸缩 的 计算 服务 。 其 特点 是 能 在 多 
个 服务 器 资源 (CPU、 内 存 等 ) 中 调度 ,而 VPS 一 般 只 是 在 一 台 物 理 服务 器 上 分 配 资 
源 。 当 然 ,VPS 相 比 于 ECS 在 价格 上 低廉 很 多 。 作 为 普通 开发 者 ,如 果 只 是 需要 做 
一 些小 网 站 或 者 简单 程序 ,那么 使 用 VPS 就 已 经 满足 需求 了 。 接 下 来 从 购买 VPS 
服务 开始 ,说明 在 VPS 上 部 署 普 通 疏 虫 的 过 程 。 

VPS 的 提供 商 众多 ,这 里 推荐 采用 国外 (尤其 是 北美 ) 的 提供 商 , 相 比 而 言 , 堪 称 
“物美 价 廉 ”。 其 中 有 名 的 是 Linode、Vultr、Bandwagon 等 厂商 。 为 方便 起 见 , 在 此 选 
择 Bandwagon 作为 示例 ( 见 图 7-14) ,主要 原因 是 它 支 持 支付 宝 付款 ,无 须 信用 卡 ( 其 
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他 很 多 VPS 服务 的 支付 方式 是 使 用 支持 VISA 的 信用 卡 ) ,而 且 可 供 选择 的 服务 项 
目 也 比较 多 样 化 。 


ms 10G VPS "uw 20GVPS "^u 40G VPS 


W SSD: 10 GB RAID-10 W SSD:20 GB RAID-10 
W RAM: 512 MB. W RAM: 1024 MB 

«9. CPU: tx inisi Xeon. Mf. CPU: 2x intel Xeon 
W Transfer: 500 GB/mo 


W Link speed: 1 Gigabit 


W SSD: 40 GB RAID-10 
V RAM: 26GB 
v CPU: 3x Intel Xeon 


W Transfer: 1 TB/mo. P W Transfer: 2 TB/mo 


mma 80G VPS ma 320G VPS 


W SSD: 80 GB RAID-10 W SSD: 160 GB RAID-10 
Y RAM:4 GB RAM:8GB 


W CPU: 4x Intel Xeon WB CPU: 5x Intel Xeon 
W Transfer: 3 TB/mo. W Transfer. 4 TB/mo 


«f SSD: 320 GB RAID-10 
@ RAM: 16 GB 

W CPU: 6x Intel Xeon 
W Transfer: 5 TB/mo 


图 7-14 Bandwagon 的 服务 项 目 


进入 Bandwagon 的 网 站 (bandwagonhost. com) ,注册 账号 并 填写 相关 信息 ,包括 
姓名 .所 在 地 等 , 见 图 7-15。 


T I have read and agree to the Terms of Service 


图 7-15 Bandwagon 的 注册 账号 页 面 
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填写 相关 信息 , 拿 到 账号 之 后 ,选择 合适 的 VPS 服务 项 目 并 订购 。 这 里 需要 注 
意 的 是 订购 周期 (年 度 、 季 度 等 ) 和 架构 (OpenVZ 或 者 KVM) 两 个 关键 信息 。 一 般 而 
言 , 如 果 选 择 年 度 周期 ,平均 计算 下 来 会 享受 更 低 的 价格 。 至 于 OpenVZ 和 KVM , 作 
为 不 同 的 架构 各 有 特点 。 由 于 KVM 架构 提供 了 更 好 的 内 核 优化 ,并 有 不 错 的 稳定 
性 ,因此 这 里 选择 KVM。 付款 成 功 后 回 到 管理 后 台 , 单 击 KiviVM Control Panel 进 
入 控制 面板 。 

DER] OpenVZ 是 基于 Linux 内 核 和 作业 系统 的 虚拟 化 技术 ,是 操作 系统 级 
别 的 。OpenVZ 的 特征 是 允许 物理 机 器 (一 般 就 是 服务 器 ) 运 行 多 个 操作 系统 ,这 被 
称 为 虚拟 专用 服务 器 (Virtual Private Server, VPS) 或 虚拟 环境 (Virtual 
Environment, VE), KVM 3] E 3k A 4 Linux 操作 系统 标准 内 核 中 的 一 个 虚拟 化 模 
块 ,是 完全 虚拟 化 的 。 

如 图 7-16 所 示 ,在 管理 后 台 安 装 Cent OS 6 系统 ,首先 单 击 左 侧 的 Install new 
OS, 选 择 带 bbr 加 速 的 Cent OS 6 x86 系统 ,然后 单 击 reload, 等 待 安装 完成 。 这 时 
系统 会 提供 对 应 的 密码 和 端口 (之 后 还 可 以 更 改 ), 然 后 开启 VPS( 单 击 start 
按钮 ) 。 


KiwiVM 
localhost.localdomain 4 99 =m m cc cen smaa 
dmin functions me 
Physical Location: 7 
IP address: Ld 
Detailed statistics 
SSH Port: 
Root shell - basic 
Status: ne“ 
Root shell - 
advanced Actions: start stop reset — kill 
x 
ten RAM: 89.23/1024 MB 


interactive 
SWAP: 0/260 MB 
Install new OS 


图 7-16 KVM 后 台 管理 面板 
成 功 开 启 VPS 之 后 ,用 户 在 本 地 机 器 (例如 自己 的 笔记 本 式 计 算 机 ) 上 使 用 ssh 
命令 即 可 登录 VPS, 如 下 : 
ssh username@hostip — p sshport 


其 中 ,username 和 hostip 分 别 为 用 户 名 和 服务 器 IP. sshport 为 设 定 的 ssh 端口 。 在 
执行 ssh 命令 后 , 若 看 到 带 有 “Last Login” 字 样 的 提示 就 说 明 登 录 成 功 。 
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当然 ,如 果 用 户 想 要 更 好 的 计算 资源 ,还 可 以 使 用 国内 的 一 些 云 服务 器 服务 ( 见 
图 7-17) ,阿里 云 服务 器 就 是 值得 推荐 的 选择 ,在 购买 过 程 中 配置 想 要 的 预 装 系 统 ( 例 
如 Ubuntu 14. 04) ,成 功 购买 并 开机 后 即 可 使 用 SSH. 等 方式 连接 访问 ,部 署 自己 的 
程序 。 


sium 


图 7-17 阿里 云云 服务 器 


7.3.2. 编写 本 地 息 虫 


这 次 的 候 虫 程序 ,打算 将 目标 着 眼 于 论坛 网 站 ,在 很 多 时 候 , 论 坛 网 站 中 的 一 些 
用 户 发 表 的 帖子 是 一 种 有 价值 的 信息 。 一 亩 三 分 地 论坛 (bbs. 1point3acres. com) 是 
一 个 比较 典型 的 国内 论坛 ,上 面 有 很 多 关于 留学 和 国外 生活 的 帖子 ,受到 年 轻 人 的 普 
遍 喜 爱 , 这 里 希望 在 该 论坛 页 面 中 疏 取 特定 的 帖子 ,将 帖子 的 关键 信息 存储 到 本 地 文 
件 , 同 时 通过 程序 将 这 些 信息 发 送 到 自己 的 电子 邮箱 中 。 从 技术 上 说 ,可 以 通过 
requests 模块 获取 到 页 面 的 信息 ,经 过 简单 的 字符 串 处 理 ,最 终 将 这 些 信 息 通 过 
smtplib 库 发 送 到 邮箱 中 。 

使 用 Chrome 分 析 网 页 ,这 里 希望 提取 到 帖子 的 标题 信息 ,并 且 使 用 右键 复制 其 
XPath 路 径 。 另 外 , Chrome 浏览 器 其 实 还 提供 了 一 些 对 于 解析 网 页 有 用 的 扩展 。 
XPath Helper 就 是 这 样 一 款 扩 展 程序 ( 见 图 7-18) ,输入 查询 ( 即 XPath 表达 式 ) 后 会 
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输出 并 高 亮 显 示 网 页 中 的 对 应 元 素 , 效 果 类 似 图 7-19, 这 样 就 可 以 帮助 用 户 验 证 
XPath 路 径 ,保证 了 怜 虫 编写 的 准确 性 。 根 据 验 证 了 的 XPath, 用 户 就 可 以 着 手 编写 
抓 取 帖子 信息 的 聆 虫 了 , 见 例 7-3。 


可 XPath Helper 
wirkte | Developer Took 
OVERVIEW REVIEWS SUPPORT RELATED ` 
Gh very Un S © comostie wn your device E 
tract, edit and evaluate XPath j 
queries with ease. 
Paty Helper makes n easy to errat. edi 
ord evaluste XPath queres on any webpage 
IMPORTANT: Mer insta 
x must reload any exist 
WIKIPEDIA ~ n ome forte enenson t wor 
The Fee Encyclopedia PR E beu 
3. Open a new tab and navigate to any 
Man page "Obama" redirects here. For his father, soe Barack Obama, Sr. For webpage 
conten aX or Command Sh Xon OS 
kee 060 Barack Hussein Obama Il (us 4//ba ro hucsem obama/; bom Augut 
REN Current everts ‘American to hold the office. Bom in Honolulu, Hawai, Obama is a grad 
Random arci the Harvard Law Review. He was a community organizer in Chicago bt — f& Website 
o Donate to waspesa Constitutional law at University of Chicago Law School from 1992 10 20. — @ Report Abuse | 
ke ILE 1o 2004, running unsuccessful for the United States House of Repres Additional information 
— In 2004, Obama received national attention during his campaign to repi ersion: 2.02 gr 
De verarv Na kmmota arenas ai the inverno Natinnal Crvwantee in UPSMNE July 13,2015 
Sre: 67 
E eiue |- 
图 7-18 在 Chrome 扩展 程序 中 搜索 XPath Helper 
T ont cotors'#666">(18Fatt«/tont> |e 
全 部 主题 ” 最 新 热门 热 帖 精华 更 多 YE ”作者 ` ; 
font cotor="blue"-HS</tont H 
[结果 汇报 ] 一 直 三 分 地 2017 版 《新 生 手册 + 美国 生活 指 w «font color="black’ 
aD 发 布 了 1 Warid 。 Ps i 
[17Fal MS ADX-EI|CSQcmu] «a Pe A Me e, O 234 5 6.10 /tont 
[结果 汇报 ] 友谊 的 小 船 说 翻 就 翻 - 申请 篇 Warald i ks ie 
= [16FallL.MS,AD 无 奖 ][CS@Stanford] - 2016-04-06 - , E ...2 3 EFN <font cotorsrweeB2E6' classs"xh- |) 
Meum acutos se il 
[结果 汇报 ] 结果 汇报 版 版 规 yanyanir : r 
AAAAAAA] - 2014-01-08 - 1-1-29 
LI2FelLMS. Offer] CSQAAAAAAA] - 2014-01-08 -, ... 2 3 — À y 
[结果 汇报 ] 4st ad MS UFlorida MaterialSci&Eng " 
|i Material aj: i AGER. = 材料 科学 与 green seec/font 
eomm [Material ] AGER - 材料 科学 与 工 ae|， 
"é totpink“>e/font " 
[RCRA ed oaa chs ye. ft [amt alor honte d 
L18Fall MS. AD: SE ][ EE UCSD] . i. 1-27. « - c, 
[RERI ri Ms ESS 14) casus erp anormaitivead 344967 
[18Fall. MS.AD 无 奖 ][CS@UMass Amherst] 34 B "* JY AA: 南大 TE Console What's New x 
MA, RB. EX, New 
‘is ucsD Local overrides 
[@id="normalthread_344967"]/tr/th/s TOR FOCHTRI aaa ess iion 
pan/u/font [5] Performance monitor 
Console sidebar 


图 7-19 使 用 XPath Helper 验证 的 结果 
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【 例 7-3] crawl-1p. py, 疏 取 一 亩 三 分 地 论坛 帖子 的 朴 虫 。 


from lxml import html 

import requests 

from pprint import pprint 

import smtplib 

from email.mime.text import MIMEText 
import time, logging, random 

import os 


class Maill63(): 
_sendbox = 'yourmail@mail.com’ 
_receivebox = [ 'receive@mail.com'] 
_mail_password = ‘password’ 
_mail_host = 'server. smtp. com’ 
_mail_user = 'yourusername' 


_port_number = 465 # 465 默认 是 SMTP 服务 器 的 端口 号 


def SendMail(self, subject, body): 
print ("Try to send...") 
msg = MIMEText ( body ) 
msg[ 'Subject'] = subject 
msg[ From']- self. sendbox 


msg[ 'To'] = ', '. join(self. receivebox) 

try: 
smtpObj = smtplib.SMTP SSL(self. mail host, self. port number) # UETL 
smtpObj.login(self. mail user, self. mail password) # 登录 


smtpObj.sendmail(self. sendbox, self. receivebox, msg.as string()) # 发 送 邮件 
print('Sent successfully') 

except: 
print('Sent failed') 


# Global Vars 
header_data = { 
'Accept': ‘text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, * / * ;q 


‘Accept - Encoding': ‘gzip, deflate, sdch, br', 
‘Accept ~ Language’: 'zh- CN, zh;q=0.8', 
"Upgrade - Insecure - Requests’: '1', 
‘User - Agent': 'Mozilla/5. 0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 (KHTML, like 
Gecko) Chrome/36.0.1985.125 Safari/537.36', 
) 
url list-[ 
‘http: //www. 1point3acres. com/bbs/forum. php?mod = forumdisplay&fid = 82&sortid = 164&* 1 
=&sortid = 164&page = {}'. format(i) for i 
in range(1, 5)] 
url = ‘http://www. 1point3acres.com/bbs/forum - 82 - 1. html' 
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mail_sender = Mail163() 

shit words -['PhD', 'MFE', 'Spring', 'EE', 'Stat', 'ME', 'Other'] 
DONOTCARE = ‘DONOTCARE' 

DOCARE = 'DOCARE' 

PWD = os. path. abspath(os. curdir) 

RECORDTXT = os. path. join(PWD, ‘Record - Titles. txt') 

ses = requests. Session() 


def SentenceJudge( sent ) : 
for word in shit_words: 
if word in sent: 
return DONOTCARE 


return DOCRRE 


def RandonSleep(): 
float num = random.randint( - 100, 100) 
float num- float(float num / (100)) 
sleep time- 5 + float num 
time.sleep(sleep time) 
print('Sleep for () s. '. format(sleep time)) 


def SendMailWrapper( result): 

mail subject = 'New AD/REJ (2 一 亩 三 分 地 : () '.format(result[0]) 

mail content = 'Title:\t{}\n'\ 
‘Link: \n{}\n'\ 
"{} in\n'\ 
'() of\n'\ 
‘(}\a'\ 
"Date: \t{}\n'\ 
'--- \nSent by Python Toolbox. 'V 

.format(result[0], result[1], result[3], result[4], result[5], result[6]) 


mail sender.SendMail(mail subject, mail content) 


def RecordWriter(title): 
with open(RECORDTXT, 'a') as f: 
f.write(title + '\n') 
logging. debug("Write Done!" ) 


def RecordCheckInList(): 
checkinlist = [] 
with open(RECORDTXT, 'r') as f: 
for line in f: 
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checkinlist.append(line. replace('\n', '")) 
return checkinlist 


def Parser(): 
final list-[] 
for raw url in url list: 
RandomSleep( ) 
pprint(raw_url) 
r= ses.get(raw url, headers = header data) 
text = r, text 
ht = html. fromstring(text) 
for result in ht. xpath('// * [@id]/tr/th'): 
* pprint (result) 
# pprint('— =") 
content_title = result.xpath('./a[2]/text()') # 0 
content_link = result.xpath('./a[2]/(2href') # 1 
content semester = result. xpath('./span[1]/u/font[1]/text()') # 2 
content degree = result. xpath( '. /span[1]/u/font[2]/text()') # 3 
content_major = result.xpath('./span/u/font[4]/b/text()') # 4 
content dept = result. xpath('./span/u/font[5]/text()') # 5 
content releasedate = result.xpath('./span/font[1]/text()') # 6 


if len(content title) + len(content link)>=2 and content_title[0]!= ' 预 览 ': 
final=[] 
final. append(content_title[0]) 
final.append(content link[0]) 


if len(content semester) » 0: 
final.append(content semester[0][1:]) 
else: 
final. append( 'No Semester Info') 
if len(content degree) > 0: 
final.append(content degree[0]) 
else: 
final. append( 'No Degree Info') 
if len(content major) > 0: 
final.append(content major[0]) 
else: 
final.append( 'No Major Info') 
if len(content dept) » 0: 
final.append(content dept[0]) 
else: 
final.append( 'No Dept Info') 
if len(content releasedate) » 0: 
final.append(content releasedate[0]) 
else: 
final. append( 'No Date Info') 
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# print( Now :\t{}'. format(final[ 0 ])) 

if SentenceJudge(final[0]) != DONOTCARE and V 
SentenceJudge(final[3])!= DONOTCARE and V 
SentenceJudge(final[4])!= DONOTCARE and V 
SentenceJudge(final[2])!= DONOTCARE: 

final list.append(final) 
else: 
pass 


return final list 


print("Record Text Path: \t{}". format (RECORDTXT) ) 
final list= Parser() 
pprint('final list: VtThis time we have these results: ') 
pprint(final list) 
print('*' * 10 + "=" 10 + '*" * 10) 
sent list = RecordCheckInList() 
pprint("sent list:VtWe already sent these:") 
pprint(sent list) 
print('*' * 10 + '-'* 10 + '*' * 10) 
for one in final list: 
if one[0] not in sent list: 


pprint(one) 

SendMailWrapper(one) # 发 送 此 新 帖子 
RecordWriter(one[0]) # 将 新 内 容 写 人 
RandomSleep( ) 


RecordWriter('- ' * 15) 


del mail sender 
del final list 
del sent list 


在 上 面 的 代码 中 ,Maill163 类 是 一 个 邮件 发 送 类 ,其 对 象 可 以 被 理解 为 一 个 抽象 
的 发 信 操 作 。 负 责 发 信 的 是 SendMail OJr iX shit words 是 一 个 包含 了 屏蔽 词 的 列 
表 ,SentenceJudge() 方 法 通过 该 列表 判断 信息 是 否 应 该 保留 。SendMailWrapper() 
方法 包装 了 SendMail() 方 法 ,最 终 可 以 在 邮件 中 发 出 格式 化 的 文本 。RecordWriter() 方 
法 负责 将 抓 取 的 信息 保存 到 本 地 中 ,RecordCheckInList() 则 读 取 本 地 已 保存 的 信息 ， 
如 果 本 地 已 保存 ( 即 旧 帖 子 ) , 便 不 再 将 帖子 添加 到 发 送 列表 sent_list( 见 main 中 的 
语句 ) 。 


Parser() 是 负责 解析 网 页 和 疏 虫 逻辑 的 主要 部 分 ,其 中 连续 的 if else 判断 部 分 是 
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为 了 判断 帖子 是 否 包含 用 户 关 心 的 信息 。 在 编写 息 虫 完毕 后 ,用 户 可 以 先 使 用 自己 
的 邮箱 账号 在 本 地 测试 一 下 ,将 发 送 邮 箱 和 接收 邮箱 都 设置 为 自己 的 邮箱 。 


7.3.3 WERE 


在 编辑 并 调试 好 疏 虫 程序 后 ,使 用 sep -P 可 以 将 本 地 的 脚本 文件 传输 (实际 上 是 
一 种 远程 复制 ) 到 服务 器 上 。scp 是 secure copy 的 简写 ,这 个 命令 用 于 在 Linux 下 远 
程 复制 文件 ,和 它 类 似 的 命令 有 cp, 不 过 cp 是 在 本 机 上 进行 复制 。 

将 文件 从 本 地 机 器 复制 到 远程 机 器 的 命令 如 下 : 


scp local file remote_username@ remote_ip:remote_file 


将 remote username 和 remote ip 等 参数 替换 为 自己 想 要 的 内 容 ( 例 如 将 remote 
username 换 为 “root”, 因 为 VPS 的 用 户 名 一 般 是 root) ,执行 命令 并 输入 密码 即 可 。 
如 果 需 要 通过 端口 号 传输 ,命令 如 下 : 


scp —P port local file remote username(Zremote ip:remote file 


当 sep 执行 完毕 后 ,用 户 的 远程 机 器 上 便 有 了 一 份 本 地 疏 虫 程序 的 副本 。 这 时 
可 以 选择 直接 手动 执行 这 个 怜 虫 程序 ,只 要 远程 服务 器 的 运行 环境 能 够 满足 要 求 就 
能 够 成 功 运行 这 个 息 虫 。 也 就 是 说 ,一 般 只 要 安装 好 扑 虫 所 需 的 Python 环境 和 各 个 
扩展 库 等 即 可 ,可 能 还 需要 配置 数据 库 。 由 于 本 例 中 的 候 虫 较为 简单 ,数据 通过 文件 
存 取 , 故 暂时 不 需要 这 一 环节 。 不 过 ,用 户 还 可 以 使 用 一 些 简 单 的 命令 将 候 虫 变 得 更 
“自动 化 "一些, 其 中 Linux 系统 下 的 crontab 命令 就 是 一 个 很 方便 的 工具 。 

【提示 】 crontab 是 一 个 控制 计划 任务 的 命令 ,而 crond 是 Linux 下 用 来 周期 性 
执行 某 种 任务 或 等 待 处 理 某 些 事件 的 一 个 守护 进程 。 如 果 用 户 发 现 机 器 上 没有 
crontab 服务 ,可 以 通过 yum install crontabs €#. crontab 的 基本 命令 行 格式 为 
crontab [-u user] [ -e | -1 | -r ], 其 中 ,-u user 表示 用 来 设 定 某 个 用 户 的 crontab 服 
务 ; -e 表示 编辑 某 个 用 户 的 crontab 文件 内 容 , 如 果 不 指定 用 户 , 则 表示 编辑 当前 用 
户 的 crontab 文件 ; -1 表示 显示 某 个 用 户 的 crontab 文件 内 容 , 如 果 不 指 定 用 户 , 则 表 
示 显 示 当 前 用 户 的 crontab 文件 内 容 ; -r 参数 表示 从 /var/spool/cron 目录 中 删除 某 
个 用 户 的 crontab 文件 ,如 果 不 指定 用 户 , 则 上 默认 删除 当前 用 户 的 crontab 文件 ,等 于 
是 一 个 归 零 操作 。 
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在 用 户 所 建立 的 crontab 文件 中 ,每 一 行 都 代表 一 项 任务 ,每 行 的 每 个 字段 代表 
一 项 设置 , 它 的 格式 共 分 为 6 段 ,前 5 有 段 是 时 间 设 定 段 ,第 6 段 是 要 执行 的 命令 段 。 
执行 crontab 命令 的 时 间 格 式 一 般 是 类 似 图 7-20 这 样 的 : 


,一 一 一 一 ninute (9 - 59) 

,一 一 一 hour (0 - 23) 

| .一 -一 day of month (1 - 31) 

| | .一 一 一 month (1 - 12) OR jan,feb,mar,apr ... 

| 1 1 —— day of week (8 - 6) (Sunday-8 or 7) OR 
sun, mon, tue, wed, thu, fri, sat 

l TE 


l 
* * * * command to be executed 
图 7-20 crontab 的 时 间 格 式 


在 远程 服务 器 上 执行 crontab -e 命令 ,添加 一 行 : 
0 * * * * python crawl- 1p. py 


之 后 保存 并 退出 (对 于 vi 编辑 器 而 言 , 即 按 下 ESC HEJA fii A“: wq”) ,使 用 crontab -1 
命令 可 以 查看 到 这 条 定时 任务 。 接 下 来 要 做 的 就 是 等 待 程序 每 隔 一 小 时 运行 一 次 ， 
系统 会 将 疏 取 到 的 格式 化 信息 发 送 到 用 户 的 邮箱 。 不 过 这 里 要 说 明 的 是 ,在 这 个 程 
序 中 将 邮箱 用 户 名 、 密 码 等 信息 直接 写 和 程序 是 不 可 取 的 行为 ,正确 的 方式 是 在 执行 
程序 时 通过 参数 传递 ,这 里 为 了 重点 展示 远程 怜 虫 ,省 去 了 对 数据 安全 性 的 考虑 。 


7.3.4 查看 运行 结果 


根据 在 crontab 中 设置 的 时 间 间 隔 , 用 户 等 待 程序 自动 运行 后 进入 自己 的 邮箱 ， 
可 以 看 到 远程 自动 发 送 来 的 邮件 ( 见 图 7-210 ,其 内 容 即 疏 取 到 的 论坛 数据 ( 见 图 7-22). 
目前 ,这 个 程序 还 没有 考虑 性 能 上 的 问题 ,另外 ,在 息 取 的 帖子 数据 较 多 时 应 该 考虑 
使 用 数据 库 进 行 存 储 。 

这 样 的 结果 说 明 ,本 次 对 疏 虫 程序 的 远程 部 署 已 经 成 功 。 本 例 中 的 聆 虫 较为 简 
单 , 如 果 涉 及 更 复杂 的 内 容 , 用 户 可 能 还 需要 用 到 一 些 专 为 此 设计 的 工具 。 


7.3.5 使 用 怜 虫 管理 框架 


Scrapy 作为 一 个 非常 强大 的 仆 虫 框架 受众 广泛 , 正 因为 如 此 , 它 在 被 大 家 作为 基 
础 庶 虫 框架 进行 开发 的 同时 衍生 出 了 一 些 其 他 的 实用 工具 ,Scrapyd 就 是 这 样 一 个 工 
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New AD/RE) @ 一 亩 三 分 地 : 


New AD/RE] @ 


分 地 : 
New AD/RE) @ 一 亩 三 分 地 : 
New AD/RE] @ 一 亩 三 分 地 : 
分 地 : 
New AD/RE] @ 一 亩 三 分 地 : 


New AD/RE] @ — 


New AD/RE) @ 一 亩 三 分 地 : 
New AD/RE) @ 一 亩 三 分 地 : 
New AD/RE] @ 一 亩 三 分 地 : 
New AD/RE) @ 一 亩 三 分 地 : 
New AD/RE] @ 一 亩 三 分 地 : 
New AD/RE) @ 一 亩 三 分 地 : 
New AD/RE) @ 一 亩 三 分 地 : 


New AD/REJ @ 一 | 


分 地 : 
New AD/RE] @ 一 亩 三 分 地 : 
New AD/RE) @ 一 雷 三 分 地 : 


1st AD from GWU Title: 1st AD from GWU Link: http://www.1point3acres.com/bbs/thread-32661 1-1-1.h... 


1st wi from Connective MediaGCornell Tech Title: ist wi from Connective Media Cornell Tech Link: ... 


2rd AD from Syracuse  Titie: 2rd AD from Syracuse Link: http://www.1point3acres.com/bbs/thread-326... 


4th AD MSBA@RPI Tite: 4th AD MSBAGRPI Link: http://www. 1point3acres.com/bbs/thread-326638-1-1... 
1st/ rej from NEU Data science Tite: 1st/ rej from NEU Data science Link: http://www. 1point3acres.co... 


3rd ad WashU (WUSTL) MSE MS  Titie: 3rd ad WashU (WUSTL) MSE MS Link: http://www.1point3acres.... 


商科 转 Data 1st AD UVA Data Science. 
1st AD MSCS@Syracuse Tite: 1st AD MSCSG Syracuse Link: http://www.1point3acres.com/bbs/thread-... 
2nd AD 学 费 七 折 


1st AD MSCS@Columbia Titie: ist AD MSCS@Columbia Link: http://www.1point3acres.com/bbs/thread... 


3rd AD € Columbia CS  Titie: 3rd AD @ Columbia CS Link: http://www.1point3acres.com/bbs/thread-32... 


Sth ad CSQ Syracuse Tite: Sth ad CS@Syracuse Link: http://www.1point3acres.com/bbs/thread-32671... 


2nd Rej from uva ce Title: 2nd Rej from uva ce Link: http://www. pointacres.com/bbs/thread-326703-.. 


3rd rej from UVA DS Titie: 3rd rej from UVA DS Link: http://www. Lpoint3acres.com/bbs/thread-326580... 
4th ad CE@UVA Title: 4th ad CE@UVA Link: http://www. 1point3acres.com/bbs/thread-326557-1-1.html ... 


ZUR Rej from USF UVA Title: =R Rej from USF UVA Link: http://www.1point3acres.com/bbs/threa... 


Titie: 商科 转 Data 1st AD UVA Data Science Link: http://www.1p0... 


Title: 2nd AD Rt Link: http://www. 1point3acres.com/bbs/thread-326680-1-1.htm! ... 


Date: 


Syracuse University 


Sent by Python Toolbox. 


7-21 邮件 列表 
Title: 2rd AD from Syracuse 
Link: 
trom be d^e esenea 
MS in 
CS of 


i 


图 7-22 邮件 正文 内 容 示 例 


具 库 , 它 能 够 用 来 方便 地 部 署 和 管理 Scrapy EE. 

如 果 在 远程 服务 器 上 安装 Scrapyd, 启 动 服务 ,用 户 就 可 以 将 自己 的 Scrapy 项 目 
直接 部 署 到 远程 主机 上 。 另 外 ,Scrapyd 还 提供 了 一 些 便于 操作 的 方法 和 APT. JH P 
借 此 可 以 控制 Scrapy 项 目的 运行 。Scrapyd 的 安装 仍然 是 通过 pip 命令 : 


pip install scrapyd 


安装 完成 后 ,在 shell 中 通过 scrapyd 命令 直接 启动 服务 ,在 浏览 器 中 根据 shell 
中 的 提示 输入 地 址 , 即 可 看 到 Scrapyd 已 在 运行 。 
Scrapyd 的 常用 命令 (在 本 地 机 器 的 命令 ) 如 下 。 


: AH BUR. 


curl http: //localhost :6800/listprojects. json 
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JA oh xe fE E cR. curl http://localhost: 6800/schedule. json -d project = 
myproject -d spider— somespider 
* TERI. curl http://localhost:6800/listjobs. json? project — myproject 
A P TEJA By MG n Je mE I] — A jobid . Wn FR FH Pt 48 9 (7 1E RA A (5 8 ra, > B] 535 
要 通过 这 个 jobid 执行 新 命令 : 


curl http://localhost:6800/cancel. json - d project = myproject - d job = jobid 


fH gc E HBS AS ve Be ro H9 RE e To oe fe 6 f duae fr Zr nij ats BEG Ro 
代码 上 传 到 远程 服务 器 上 ,这 就 涉及 打包 和 上 传 等 操作 。 为 了 解决 这 个 问题 ,用 户 可 
以 使 用 另 一 个 包 一 一 Scrapyd-Client 来 完成 。 安 装 指令 如 下 ,仍然 是 通过 pip 安装 : 


pip3 install scrapyd - client 


熟悉 Scrapy MG i (69 i3: HY FE UGE. AE Ux BE Scrapy 新 项 目 后 会 生成 一 个 配置 文 
Tt. scrapy. cfg, 见 图 7-23. 


f Automatically created by: scrapy startproject 


HET more information about the [deploy] section see: 
H https://scrapyd. readthedocs .org/en/latest/deploy.html 


[settings] 
default = newcrawler. settings 


[deploy] 
#url = http://localhost:6800/ 
roject - newcrawler 


图 7-23 Scrapy ff i AY scrapy. cig 文件 内 容 
打开 此 配置 文件 进行 一 些 配 置 : 


# scrapyd 的 配置 名 

[ deploy: scrapy_cfg1] 

* 启动 scrapyd 服务 的 远程 主机 ip, localhost 默认 为 本 机 
url = http://localhost:6800/ 

# url = http: xxx. xxx. xx. xxx : 6800 * 服务 器 的 IP 
username = yourusername 

password = password 

+ 项 目 名 称 

project = ProjectName 


在 完成 之 后 ,就 能 够 省 略 scp 等 烦琐 操作 ,通过 “scrapyd-deploy” 命 令 实现 一 键 部 
署 。 如 果 用 户 还 想 实 时 监控 服务 器 上 Scrapy JE RA RA. A Wt OR 
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Scrapyd 的 API 来 实现 。Scrapyd-API 库 就 能 完美 地 满足 这 个 要 求 ,在 安装 这 个 工具 
后 ,用 户 可 以 通过 简单 的 Python 语句 来 查看 远程 候 虫 的 状态 (例如 下 面 的 代码 ) ,得 
到 的 输出 结果 就 是 以 JSON 形式 呈现 的 爬虫 运行 情况 。 

from scrapyd api import ScrapydAPI 


scrapyd = ScrapydAPI( 'http://host:6800') 
scrapyd.list jobs('project name') 


A JR , FEJER HIRR E AE By Thiet — 326 dor oa TE EI ESRB. 
例如 由 国人 开发 的 Gerapy Chttps://github. com/Gerapy/Gerapy ) . 这 是 一 个 基于 
Scrapy , Scrapyd, Scrapyd-Client, Scrapy-Redis, Scrapyd-API, Scrapy-Splash, Django, 
Jinjia2 等 众多 强大 工具 的 库 , 能 够 帮助 用 户 通 过 网 页 UT SERE AERE rh 

安装 Gerapy 仍然 是 通过 pip: 


pip3 install gerapy 


pip3 指明 了 是 为 Python 3 安装 , 当 计 算 机 中 同时 存在 Python 2 与 Python 3 环 
境 时 ,使 用 pip2 和 pip3 便 能 够 区 分 。 
在 安装 完成 之 后 就 可 以 马上 使 用 gerapy 命令 ,初始 化 命令 如 下 : 


gerapy init 


该 命令 执行 完毕 之 后 会 在 本 地 生成 一 个 gerapy 文件 夹 ,进入 该 文件 夹 (cd 命 
令 ), 可 以 看 到 有 一 个 projects 文件 夹 (ls 命令 )。 之 后 执行 数据 库 初 始 化 命令 : 


gerapy migrate 


它 会 在 gerapy 目录 下 生成 一 个 SQLite 数据 库 , 同 时 建立 数据 库 表 。 之 后 执行 
启动 服务 的 命令 ( 见 图 7-24): 


gerapy runserver 


Django version 2.0.2, using settings 'gerapy.server.server.settings' 
Starting development server at http://127.0.0.1:8000/ 
Quit the server with CONTROL-C. 


图 7-24 runserver 命令 的 结果 
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最 后 在 浏览 器 中 打开 “http://localhost:8000/”, 就 可 以 看 到 Gerapy 的 主 界面 ， 


如 图 7-25 所 示 。 


GERAPY 


CuENT CuENT 加 mouecr 


图 7-25 Gerapy 显示 的 主机 和 项 目 状 态 
Gerapy 的 主要 功能 就 是 进行 项 目 管理 ,用 户 可 以 通过 它 配 置 、 编 辑 和 部 署 自己 
的 Scrapy 疏 虫 。 如 果 用 户 想 对 一 个 Scrapy 项 目 进行 管理 和 部 署 , 将 项 目 移 到 刚才 
Gerapy 运行 目录 的 projects 文件 夹 下 即 可 。 
接 下 来 通过 单 击 “ 部 署 " 按 钮 进行 打包 和 部 署 , 单 击 “打包 ”按钮 , 即 可 发 现 
Gerapy 会 提示 打包 成 功 ,之 后 便 可 以 开始 部 署 。 当 然 , 对 于 部 署 了 的 项 目 ,Gerapy 也 
能 够 监控 项 目 状态 。Gerapy 甚至 提供 了 基于 GUI 的 代码 编辑 页 面 , 如 图 7-26 所 示 。 


 NEWCRAWLER 


图 7-26 Gerapy 中 的 程序 编辑 功能 
众所周知 , Scrapy 中 的 CrawlSpider 是 一 个 非常 常用 的 模板 ,用 户 已 经 看 到 ， 
CrawlSpider 通过 一 些 简单 的 规则 来 完成 候 虫 的 核心 配置 (例如 息 取 人 逻辑 等 ), 因 此 基 
于 这 个 模板 ,如 果 要 新 创建 一 个 候 虫 ,用 户 只 需要 写 好 对 应 的 规则 即 可 。Gerapy 利 
用 了 Scrapy 的 这 一 特性 ,如 果 用 户 写 好 规则 ,Gerapy 就 能 够 自动 生成 Scrapy 项 目 
代码 。 
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单 击 项 目 页 面 右 上 角 的 按钮 ,用 户 就 能 够 增加 一 个 可 配置 怜 虫 。 然 后 在 此 处 添 
加 提取 实体 、 扑 取 规则 和 抽取 规则 , 详 见 图 7-27。 在 配置 完 所 有 相关 规则 内 容 后 生成 
代码 ,最 后 用 户 只 需要 继续 在 Gerapy 的 Web 页 面 操作 ,对 项 目 进行 部 署 和 运行 即 
可 。 也 就 是 说 ,我 们 通过 Gerapy 完成 了 从 创建 到 运行 完毕 这 所 有 的 工作 。 


配置 项 目 m 
MEZER TestMars 


生成 代码 2018-09-04 21:01:55 BET 


x Emu 
> oe a qu 
列表 ET 
va oo 


通用 配置 | 通用 配置 


类 内 代码 | 类 内 代码 


EV" 


图 7-27 Gerapy 通过 UI 编辑 疏 虫 (实体 和 规则 等 ) 


7.4 本 章 小 结 


在 本 章 中 介绍 了 不 同 应 用 领域 的 怜 虫 ,还 讨论 了 对 疏 虫 的 远程 部 署 和 管理 。 在 
接 下 来 的 章节 中 将 转向 疏 虫 的 另 一 个 应 用 领域 , 那 就 是 利用 疏 虫 进行 网 站 测试 。 


浏览 肯 模 拟 写 网 站 测试 


有 息 虫 程序 是 为 采集 网 络 数据 而 产生 的 ,不 过 作为 与 网 站 进行 交互 的 程序 , 候 虫 还 
可 以 扮演 网 站 测试 的 角色 。 对 于 很 多 Web 应 用 而 言 ,通常 会 将 注意 力 放 在 后 端的 各 
项 测试 上 ,前 端 界 面 测试 一 般 会 由 一 个 程序 员 完成 。 使 用 候 虫 程序 ,尤其 是 浏览 器 模 
拟 程序 ,用 户 可 以 轻松 地 对 网 站 进行 测试 。 借 助 Python 程序 ,我 们 可 以 把 原本 需要 
手动 进行 的 一 系列 界面 操作 自动 化 ,程序 化 。 事 实 上 ,Selenium 这 个 工具 就 是 为 网 页 
测试 而 开发 的 ,使 用 Selenium WebDriver 可 以 使 得 网 站 开发 者 十 分 方便 地 进行 UI 
测试 ,其 丰富 的 API 可 以 帮助 用 户 访问 DOM 模拟 键盘 输入 ,甚至 运行 JavaScript. 


8.1 关于 测试 


在 人 们 提 到 “测试 ”这 个 概念 时 ,很 多 时 候 所 指 的 就 是 “单元 测试 "。 单 元 测试 (有 
时 候 也 叫 模块 测试 ?就 是 开发 者 所 编写 的 一 段 代码 ,用 于 检验 被 测 代码 的 一 个 较 小 
的 .明确 的 功能 是 否 正确 。 所 以 通常 而 言 .一 个 单元 测试 是 用 于 判断 某 个 特定 条 件 
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(或 者 场景 ) 下 某 个 特定 函数 的 行为 ,而 一 个 小 模块 的 所 有 单元 测试 都 会 被 集中 到 同 
一 个 类 (class) 中 ,并 且 每 个 单元 测试 都 能 够 独立 地 运行 。 当 然 ,单元 测试 的 代码 与 生 
产 代 码 也 是 独立 的 ,一 般 会 被 保存 在 独立 的 项 目 和 目录 中 。 

作为 程序 开发 中 的 重要 一 环 , 单 元 测试 的 作用 包括 确保 代码 质量 改善 代码 设 
计 、 保 证 代码 重 构 不 会 引入 新 问题 (在 以 函数 为 单位 进行 重 构 的 时 候 , 只 需要 重新 测 
试 基本 上 就 可 以 保证 重 构 没 引入 新 问题 ) 。 

除了 单元 测试 ,大 家 还 会 听 到 “集成 测试 “系统 测试 ”等 其 他 名 词 。 集 成 测试 就 
是 在 软件 系统 集成 过 程 中 所 进行 的 测试 ,一 般 安排 在 单元 测试 完成 之 后 ,目的 是 检查 
模块 之 间 的 接口 是 否 正确 ; 系统 测试 则 是 对 已 经 集成 好 的 软件 系统 进行 彻底 的 测试 ， 
目的 在 于 验证 软件 系统 的 正确 性 和 性 能 等 是 否 满足 要 求 。 本 章 主 要 讨论 单元 测试 。 


8.1.2 什么 是 TDD 


按照 理解 ,测试 似乎 是 在 代码 完成 之 后 再 实现 的 部 分 ,毕竟 测试 的 是 代码 ,但 是 
测试 却 可 以 先行 ,而 且 还 会 收 到 良好 的 效果 ,这 就 是 所 谓 的 测试 驱动 开发 (TDD)。 换 
名 话说 ,TDD 就 是 先 写 测试 ,再 写 代 码 。 在 (代码 大 全 ) 中 这 样 说 : 

。 在 开始 写 代 码 之 前 先 写 测试 用 例 , 并 不 比 之 后 再 写 多 花 多 少 工夫 ,只 是 调整 

了 一 下 测试 用 例 编写 活动 的 工作 顺序 而 已 。 

。 假 如 先 编写 测试 用 例 , 那 么 用 户 将 可 以 更 早 地 发 现 缺陷 ,同时 也 更 容易 修正 

它们 。 

* 首先 编写 测试 用 例 , 将 迫使 用 户 在 开始 写 代码 之 前 至 少 思考 一 下 需求 和 设 

计 , 而 这 往往 会 催生 更 高 质量 的 代码 。 

。 在 编写 代码 之 前 先 编写 测试 用 例 , 能 更 早 地 把 需求 上 的 问题 暴露 出 来 。 

实际 上 ,在 《代码 整洁 之 道 )? 中 还 描述 了 TDD 的 三 定律 。 

。 定律 一 : 在 编写 不 能 通过 的 单元 测试 前 不 可 编写 生产 代码 。 

。 定律 二 : 只 可 编写 刚好 无 法 通过 的 单元 测试 ,不 能 编译 也 算 不 通过 。 

。 定律 三 : 只 可 编写 刚好 足以 通过 当前 失败 测试 的 生产 代码 。 产 品 代码 能 够 让 

当前 失败 的 单元 测试 成 功 通过 即 可 ,不 要 多 写 。 


@ 《代码 整洁 之 道 ) 为 一 部 关于 软件 编写 中 代码 风格 的 专著 , 见 Martin, Robert C. Clean Code: a Handbook of 
Agile Software Craftsmanship. London: Pearson Education, 2009, 
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无 论 是 先 写 测试 还 是 后 写 测试 ,测试 都 是 需要 重视 的 环节 ,我 们 的 最 终 目 的 是 提 


供 可 用 的 、 完 善 的 程序 模块 。 


8.2 Python 的 单元 测试 


8.2.1 使 用 unittest 


在 Python 中 ,用 户 可 以 使 用 Python 自 带 的 unittest 模块 编写 单元 测试 , 见 
例 8-1. 

[B] 8-1] TestStringMethods. py. unittest 简单 示例 。 

import unittest 

class TestStringMethods(unittest.TestCase): 


def test upper(self): 


self.assertEqual('test'.upper(), 'TEST') + 判断 两 个 值 是 否 相 等 
def test isupper(self): 

self.assertTrue( TEST'. isupper()) + 判断 值 是 否 为 True 

self.assertFalse( Test'. isupper()) + 判断 值 是 否 为 False 


在 PyCharm IDE 中 运行 这 个 程序 ,可 以 看 到 它 与 普通 的 脚本 不 同 ,这 个 程序 被 
作为 一 个 测试 来 执行 , 见 图 8-1。 


图 8-1 在 PyCharm IDE 中 运行 TestStringMethods 


当然 ,也 可 以 使 用 命令 行 来 运行 : 


python3 - m unittest TestStringMethods 


输出 为 : 
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Ran 2 tests in 0.000s 
OK 


使 用 -v 参数 执行 命令 可 以 获得 更 多 信息 , 见 图 8-2。 


test isupper (TestStringMethods.TestStringMethods) ... ok 
test upper (TestStringMethods.TestStringMethods) ... ok 


Ran 2 tests in 0.000s 


OK 


图 8-2 ”运行 TestStringMethods 的 信息 
以 上 输出 说 明 用 户 的 测试 都 已 通过 。 如 果 用 户 想 换 一 种 方式 ,使 用 运行 普通 脚 
本 的 方式 来 执行 测试 ,例如 “python3 TestStringMethods. py”, 那 么 还 需要 在 脚本 未 
尾 增加 两 行 代码 : 


if name == ' main ' 


unittest. main() 


在 这 个 示例 中 创建 了 一 个 TestStringMethods 类 ,并 继承 了 unittest. TestCase. 
这 里 方法 的 命名 以 test 开头 ,表明 该 方法 是 测试 方法 。 实 际 上 ,不 以 test 开头 的 方法 
在 测试 的 时 候 不 会 被 Python 解释 器 执行 。 因 此 ,如 果 用 户 添加 这 样 一 个 方法 : 


def nottest isupper(self): 
self.assertEqual( "TEST'. upper(), 'test') 


虽然 'TEST'. upper() 与 'test' 并 不 相等 ,但 是 这 个 测试 仍然 会 通过 ,因为 nottest 
isupper() 方 法 不 会 被 执行 。 在 上 述 各 个 方法 里 面 使 用 了 以 下 断言 (assert) 来 判断 运 
行 的 结果 是 否 和 预期 相符 。 

* assertEqual: 判断 两 个 值 是 否 相 等 。 

。 assertTrue/assertFalse: 判断 表达 式 的 值 是 True 还 是 False, 

断言 方法 主要 分 为 3 种 类 型 。 

。 检测 两 个 值 的 大 小 关系 : 相等 大于、 小 于 等 。 

。 检查 逻辑 表达 式 的 值 : True/False。 

ERG. 


B 
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在 实践 中 常用 的 断言 方法 见 表 8-1。 


表 8-1 常用 的 断言 方法 


断言 方法 意义 解释 
assertEqual(a, b) 判断 a= = 
assertNotEqual(a, b) JB al =b 


assertTrue(x) 


bool(x) is True 


assertFalse(x) 


bool(x) is False 


assertIs(a, b) ais b 
assertIsNot(a, b) a is not b 
assertIsNone( x) x is None 


assertIsNotNone(x) 


x is not None 


assertIn(a, b) 


ainb 


assertNotIn(a, b) 


a not in b 


assertIsInstance(a, b) 


isinstance(a, b) 


assertNotIsInstance(a, b) 


not isinstance(a, b) 


有 时 候 用 户 还 需要 在 每 个 测试 方法 的 执行 前 和 执行 后 做 一 些 操作 ,例如 在 每 个 
测试 方法 执行 前 连接 数据 库 , 在 执行 后 断 开 连 接 。 此 时 可 以 使 用 set Up O On pf 


tearDown O (退出 ) 方 法, 这样 就 不 需要 在 每 个 测试 方法 中 编写 重复 的 代码 。 这 是 


写 一 下 刚才 的 测试 类 : 


import unittest 


class TestStringMethods(unittest. TestCase): 
def setUp(self): 
print("set up the test") 


def tearDown(self) : 
print("tear down the test") 


def test_upper(self) : 
self. assertEqual('test'.upper(), 'TEST') 


def test_isupper(self) : 
self. assertTrue( TEST'. isupper() ) 
self. assertFalse( Test'. isupper()) 


def nottest_isupper(self) : 
self. assertEqual( TEST'. upper(), 'test') 


* 判断 两 个 值 是 否 相 等 


+ 判断 值 是否 为 True 
+ 判断 值 是否 为 False 


且 改 


再 次 使 用 “python3 -m unittest -v TestStringMethods ”命令 来 执行 测试 ,如 图 8-3 


所 示 。 
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test isupper (TestStringMethods.TestStringMethods) ... set up the test 
tear down the test 

ok 

test upper (TestStringMethods.TestStringMethods) ... set up the test 
tear down the test 

ok 


Ran 2 tests in 0.000s 


OK 


图 8-3 再 次 执行 TestStringMethods 的 测试 
可 见 测试 类 在 执行 测试 之 前 和 之 后 会 分 别 执行 stUp() 和 tearDown()。 注 意 ， 


这 两 个 方法 在 每 个 测试 的 开始 和 结束 都 运行 ,而 不 是 把 TestStringMethods 这 个 测试 
类 作为 一 个 整体 只 在 开始 和 结束 运行 一 次 。 


8.2.2 其 他 方法 


除了 Python 内 置 的 unittest 以 外 ,用 户 还 有 不 少 其 他 选择 ,pytest 模块 就 是 一 
不 错 的 选择 。pytest FEF unittest. 目前 很 多 开源 项 目 也 都 在 用 。pytest 的 安装 也 是 
一 如 既往 的 方便 : 


pip install pytest 


pytest 的 功能 比较 全 面 而 且 可 扩展 ,但 是 语法 很 简洁 ,甚至 比 unittest 还 要 简单 ， 
见 例 8-2。 
【 例 8-2] pytestCalculate. py,pytest 模块 示例 。 


def add(a, b): 
returna + b 


def test add(): 


assert add(2, 4) == 


使 用 pytest pytestCalculate. py 命令 来 执行 测试 ,如 图 8-4 所 示 o 


test session starts 


platform darwin 一 pos 3. z 2 Gus 3.9.7, py-1.4.33, pluggy-0.4.0 


rootdir: ,, 1ds. t e rem n mite 
plugins: cetery-4.9. I 
collected 1 itens 


bytestcalculate.py . 


1 passed in 0.01 seconds 


图 8-4 pytestCalculate 的 测试 结果 
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当 需 要 编写 多 个 测试 样 例 的 时 候 , 可 以 将 其 放 到 一 个 测试 类 中 : 


def add(a, b): 
returna * b 


def nul(a, b): 
returna * b 


class TestClass(): 
def test add(self): 
assert add(2, 4) ==6 


def test mul(self): 
assert mul(2,5) == 10 


在 编写 时 需要 遵循 一 些 原 则 : 

(1) 测试 类 以 Test 开头 ,并 且 不 能 带 有 __init 方法 。 

(2) 测试 函数 以 test_ 开头。 

(3) 断言 使 用 基本 的 assert 来 实现 。 

用 户 仍然 可 以 使 用 “pytest pytestCalculate. py” 进 行 这 个 测试 ,输出 结果 会 显示 
“2 passed in 0. 03 seconds", 

当然 ,除了 unittest 和 pytest 以 外 ,Python 中 的 单元 测试 工具 还 有 很 多 ,有 兴趣 
的 读者 可 以 自行 了 解 。 


8.3 使 用 Python 爬虫 测试 网 站 


把 Python 单元 测试 的 概念 与 网 络 仆 虫 程序 结 合 起 来 ,用 户 就 可 以 实现 简单 的 网 
站 功能 测试 。 这 里 不 妨 来 测试 一 下 论坛 类 网 站 ( 即 以 用 户 发 帖 和 回帖 为 主要 内 容 的 
网 站 ) ,为 了 举例 简单 ,从 一 个 十 分 基础 的 功能 单元 切入 一 一 项 帖 对 网 站 内 容 排 序 的 
影响 。 也 就 是 说 ,在 众多 页 面 中 ,被 展示 在 前 面 的 页 面 ( 即 页 码 较 小 ) 中 的 帖子 的 最 后 
可 复 时 间 ( 日 期 ) 一 定 新 于 后 面 页 面 中 帖子 的 最 后 回复 时 间 ,而 同一 页 面 的 帖子 列表 
中 上 面 的 帖子 的 最 后 回复 时 间 ( 日 期 ) 也 一 定 新 于 下 面 的 帖子 。 以 著名 的 水 木 论 坛 为 
例 SERŽ HL Bi] 8-3. 
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【 例 8-3] Newsmth_pg. py-KAICIZ fr fe d , 


import requests, time 
from lxml import html 


class NewsmthCrawl(): 
header data = ('Accept': 'text/html, application/xhtml + xml, application/xml; q = 0.9, 

image/webp, * / * ;q=0.8', 

"Accept - Encoding': 'gzip, deflate, sdch, br', 

"Accept — Language’: 'zh— CN, zh;q=0.8', 

"Connection': 'keep- alive’, 

"Upgrade - Insecure - Requests’: 'l', 

‘User — Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 

) 


def set startpage(self, startpagenum): 
self. start_pagenum = startpagenum 


def set_maxpage(self, maxpagenum) : 
self.max pagenum = maxpagenum 


def set kws(self, kw list): 
self.kws- kw list 


def keywords check(self, kws, str): 
if len(kws) ==0 or len(str) --0: 
return False 
else: 
if any(kw in str for kw in kws): 
return True 
else: 
return False 


def get all items(self): 
res list- [] 
ses = requests. Session() 


raw urls = ['http://www. newsmth. net/nForum/board/Joke?ajax&p = (] '. 
format(i) for i in range(self.start pagenum, self.max pagenum)] 
for url in raw urls: 
resp = ses.get(url, headers = NewsmthCrawl. header data) 
h1 = html. fromstring(resp. content) 
raw xpath- '// * [@ id= "body" ]/div[3]/table/tbody/tr' 


for one in hl.xpath(raw xpath): 
tup = (one. xpath( '. /td[2]/a/text() ') [0], ‘http://www. newsmth.net' + one. xpath 
(C. /td[2]/a/G hre£ ') [0], 
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one. xpath( '. /td[8]/a/text() ') [0]) 
res list.append(tup) 
time.sleep(1.2) 


return res list 


JEAN BEA Ez 7r EE get all itemsO ,这 个 方法 会 返回 一 个 列表 (list) ,列表 
中 的 每 个 元 素 都 是 一 个 元 组 (tuple) ,元 组 中 有 3 个 元 素 , 即 帖子 的 标题 帖子 的 链接 、 
帖子 的 最 后 回复 日 期 。 它 们 会 对 水 木 论坛 的 笑话 版 面 (地 址 是 www. newsmth. net/ 
nForum/ # ! board/Joke) ilt 47 MEW. A 9b. keywords, check O WERKE 


数 一 _kws 和 str, 判 断 kws 列表 中 是 否 存在 某 个 关键 词 也 在 str 这 个 字符 串 中 ,返回 
布尔 值 。 不 过 在 目前 的 get_all_items() 方 法 中 还 没有 进行 关键 词 检测 ,这 个 方法 也 
没有 在 任何 地 方 被 调用 。 
简单 地 执行 这 个 息 虫 ,输出 get_all_items() 的 结果 , 见 图 8-5 
'2017-10-15'), 
fi Pte quU A LT RET '2017-10-15'), 
的 '， ', '2017-10-15'), 
人 人 inane? oa 
2017-10-15"), 
(YAE, ‘http://w. newsmth. net/nForum/article/Joke/3693782', '2017-10-15'),| 
"EXER, ‘http://www. newsmth.net/nForum/article/Joke/3693787', '2017-10-15'), 
《 " 进 版 是 什么 意思 2? ', 
"http://www.newsnth.net/nForun/article/Jok 749" , 
'2017-10-15'), 
E [合集 ] 为 什么 有 人 要 黑 中 药 '， 
TEN 


图 8-5 get_all_items() 方 法 的 结果 


与 之 相对 应 ,编写 一 个 测试 类 ,存放 在 test_newsmth. py 中 , 见 例 8-4. 


【 例 8-4] test newsmth. py ZKAKi€ 1z f& d AY MK . 


import datetime 
from newsmth pg import NewsmthCrawl 


class TestClass(): 
def test lastreplydatesort(self): 
Nsc = NewsmthCrawl() 
Nsc.set startpage(3) 
Nsc.set maxpage(10) 
tup list- Nsc.get all items() 
for i in range(1, len(tup list)): 
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dt new= datetime. datetime. strptime(tup_list[i-1][-1], '&Y- %m- %d') 
dt old- datetime. datetime. strptime(tup_list[i][-1], '&Y- %m- &d') 
assert dt new» = dt old 


这 个 测试 类 只 有 一 个 测试 方法 ,test_lastreplydatesort() 的 目标 是 获取 所 有 “最 后 
可 复 日 期 ”然后 逐个 对 比 。 因 为 多 个 帖子 可 能 会 有 同一 个 回复 日 期 ,所 以 在 断言 语句 
中 是 “>=” 而 不 是 “>”。 另 外 ,dt_new 和 dt old 都 是 使 用 strptime() 构 造 的 datetime 
对 象 ,对 于 strptime() 方 法 ,在 本 书 第 10 章 中 有 相关 的 介绍 。 

通过 执行 “pytest test_newsmth. py 进行 测试 ,最 终 测试 通过 ,如 图 8-6 所 示 。 


SPS pe ee a 

test session starts 
platform darwin 一 Python 3.5.2, pytest-3.0.7, py-1.4.33, pluggy-0.4.0 
rootdir; J.A. "a. We ee ee eer Fe dur 


collected 1 itens 


test newsmth.py . 


1 passed in 10.26 seconds =- 一 一 --- 一 一 -一 | 


图 8-6 pytest 测试 水 木 论坛 疏 虫 的 结果 


8.4 使 用 Selenium 测试 


虽然 使 用 Python 单元 测试 能 够 对 网 站 的 内 容 进 行 一 定 程度 的 测试 ,但 是 对 于 测 
试 页 面 功 能 ,尤其 是 涉及 JavaScript 时 ,简单 的 候 虫 就 显得 有 点 黔 驴 技 穷 了 。 十 分 幸 
运 的 是 ,现在 有 Selenium 这 个 工具 ,与 Python 单元 测试 不 同 的 是 ,Selenium 并 不 要 
求 单元 测试 必须 是 一 个 测试 方法 ,另外 测试 通过 也 不 会 有 什么 提示 。 在 前 面 已 经 介 
绍 过 Selenium, 必 须 强 调 的 是 ，Selenium 测试 可 以 在 Windows, Linux 和 Mac 上 的 
Internet Explorer、Mozilla 和 Firefox 中 运行 ,能 够 覆盖 如 此 多 的 平台 正 是 Selenium 
的 一 个 突出 优点 。Selenium 测试 毕竟 不 同 于 普通 的 Python Wi., Selenium 测试 可 
以 从 终端 用 户 的 角度 来 测试 网 站 ,而 且 通过 在 不 同 平 台 的 不 同 浏览 器 中 进行 测试 也 
更 容易 发 现 浏览 器 的 兼容 性 问题 。 


8.4.1 Selenium 测试 常用 的 网 站 交互 


Selenium 进行 网 站 测试 的 基础 就 是 自动 化 浏览 器 与 网 站 的 交互 ,包括 页 面 操作 、 
数据 交互 等 。 在 前 面 已 经 对 Selenium 的 基本 使 用 做 过 简单 的 说 明 , 有 了 网 站 交互 
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CT AS Jc SR, A (E. rp PE E ae FE DUI ee FE E AS SERO ,用 户 就 能 够 完成 很 多 测试 工作 ,例如 
找 出 异常 表单 .HTML 排版 错误 、 页 面 交 互 问题 。 

一 般 来 说 ,开始 页 面 交 互 的 第 一 步 都 是 定位 元 素 ,即使 用 find_element(s)_by_* 
系列 方法 。 

对 于 一 个 给 定 的 元 素 ( 最 好 已 经 定位 到 了 这 个 元 素 ),Selenium 能 够 执行 的 操作 
也 很 多 ,包括 单 击 (click() 方 法 )、 双 击 (double_click() 方 法 )、 键 盘 输 入 (send_keys() 方 
法 ) 清除 输入 (clear() 方 法 ) 等 。 用 户 甚至 可 以 模拟 浏览 器 的 前 进 或 后 退 ( 使 用 
driver. forward() 和 driver. back()), 或 者 是 访问 网 站 弹出 的 对 话 框 (driver. switch_to_ 
alert). 

Selenium 中 的 动作 链 (action chain) 也 是 一 个 十 分 方便 的 设计 。 用 户 可 以 用 它 来 
完成 多 个 动作 ,其 效果 与 对 一 个 元 素 显 式 地 执行 多 个 操作 是 一 致 的 。 例 8-5 是 
Selenium 登录 豆 辩 的 例子 。 

[BI 8-5] Selenium ŽRE. 


from selenium import webdriver 
from selenium. webdriver import ActionChains 


path_of_chromedriver = 'your path of chrome driver' 
driver = webdriver.Chrome(path of chromedriver) 
driver. get( ‘https: //www. douban. com/login') 

email field = driver.find element by id('email') 

pw field- driver.find element by id( 'password') 
submit button = driver. find element by name( login') 


email field.send keys( 'youremail@mail.com') 


pw field. send keys('yourpassword') 
submit button.click() 


将 最 后 3 行 代码 改写 为 : 
actions = ActionChains(driver).\ 
click(email_field). send_keys( ‘youremail@mail.com') V 


.Click(pw field). send keys( 'yourpassword').click(submit_button) 


actions. perform( ) 


效果 完全 一 致 。 第 一 种 方式 在 两 个 字段 上 调用 send. keysO ,然后 单 击 “ 登 录 ” 按 钮 ; 
第 二 种 方式 则 使 用 一 个 动作 链 来 单 击 每 个 字段 并 填写 信息 ,最 后 登录 (不 要 忘 了 在 最 
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后 使 用 perform() 方 法 执行 这 些 操作 )。 实 际 上 ,不 仅仅 是 使 用 WebDriver 自 带 的 方 
法 进行 交互 ,用户 还 可 以 使 用 十 分 强大 的 execute_script() 方 法 : 
last height = driver. execute script("return document. body. scrollHeight") 
while True: 
# 向 下 深 动 到 底部 
driver. execute_script("window. scrollTo(0, document. body. scrollHeight);") 
new height = driver.execute script("return document. body. scrollHeight") 
if new height-- last height: 
break 
last height = new height 


上 面 的 代码 就 是 一 个 使 用 JavaScript 脚本 进行 页 面 交 互 的 例子 ,其 实现 的 功能 
是 不 断 下 拉 到 页 面 的 底 端 ( 即 浏览 器 右 侧 的 滚动 条 ) 。 

最 后 ,如 果 用 户 使 用 PhantomJS 等 无 界面 浏览 器 进行 测试 ,就 会 发 现 Selenium 
的 截图 保存 是 一 个 十 分 友好 的 功能 。 以 下 代码 都 能 够 完成 截屏 动作 : 

driver.save screenshot( screenshot - douban. jpg') 

driver.get screenshot as file('screenshot - douban. png') 

截屏 的 意义 至 少 在 于 , 当 用 户 搞 不 清楚 测试 问题 所 在 时 ,看 看 此 时 的 网 站 实时 界 
面 总 是 一 个 不 错 的 选择 。 


8.4.2 结合 Selenium 进行 单元 测试 


Selenium 可 以 轻而易举 地 获取 网 站 的 相关 信息 ,而 单元 测试 可 以 评估 这 些 信息 
是 否 满足 测试 条 件 , 因 此 结合 Selenium 进行 单元 测试 就 成 为 十 分 自然 的 选择 。 下 面 
的 示例 对 维基 百科 (en. wikipedia. org/wiki/Main_Page) 进 行 测试 ,在 搜索 框 中 搜索 
“Wikipedia" 关 键 词 ,检测 查找 结果 ,如 果 没 有 查询 结果 则 测试 不 通过 , 见 例 8-6 

LBI 8-6] TestWikipedia. py, 一 个 使 用 Selenium 测试 Wikipedia 的 程序 。 

import unittest, time 


from selenium import webdriver 
from selenium. webdriver.common.keys import Keys 


class TestWikipedia(unittest. TestCase): 
path of chromedriver = 'your path of chromedriver' 


def setUp(self): 
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self. driver = webdriver.Chrome(executable path = TestWikipedia.path of chromedriver) 


def test search in python org(self): 
driver = self. driver 
driver. get("https: //en. wikipedia. org/wiki/Main Page") 
self. assertIn("Wikipedia", driver. title) 
elem = driver. find_element_by_name("search" ) 
elem, send_keys( Wikipedia') 
elem. send_keys(Keys. RETURN) 
time. sleep(3) 
assert "no results" not in driver. page_source 


def tearDown(self): 
print ("Wikipedia test done.") 
self. driver. close() 


if name  -- " main ": 


unittest.main() 


在 上 面 的 代码 中 ,测试 类 继承 自 unittest. TestCase, 4k 7K TestCase 类 是 告诉 
unittest 模块 该 类 是 一 个 测试 用 例 。 在 setUp() 方 法 中 创建 了 Chrome WebDriver 的 
一 个 实例 ,下 面 一 行使 用 断言 的 方法 判断 在 页 面 标 题 中 是 否 包含 “Wikipedia”: 


self.assertIn("Wikipedia", driver. title) 


在 使 用 find_element_by_name() 方 法 寻找 到 搜索 框 后 ,发 送 keys 输入 ,这 和 使 用 
键盘 输入 keys 是 同样 的 效果 。 另 外 ,一 些 特殊 的 按键 可 以 通过 导入 selenium. 
webdriver. common. keys 的 Keys 类 来 输入 (正如 代码 开头 那样 )。 之 后 检测 网 页 中 
是 否 存 在 “no results” 这 个 字符 串 ,整个 测试 类 的 逻辑 基本 上 就 是 这 样 。 

在 IDE 中 运行 这 个 测试 程序 ,可 见 Wikipedia 网 站 通过 了 这 次 测试 ( 见 图 8-7), 
对 于 “Wikipedia” 这 个 关键 词 ,搜索 是 不 会 查询 不 到 结果 的 。 


CT * 
em unittin-e ‘test passed -12s clms 
= All Tests Passed teat 人 rk/Versions/3.5/Bin/pythons.5 [Applicat ions/Pytarn.app/Contents/melpers/eychara/_jb_pytest_runner.py —target Test 


co 


VX*BsesvE 


Testuikipetia.py .Wikipedia test done. 


3 passed in 12.95 seconds 


Process finished with exit code @ 


图 8-7 IDE 运行 TestWikipedia. py 的 结果 
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当然 ,如 果 把 搜索 内 容 改 为 其 他 的 “冷门 ”关键 词 , 则 测试 可 能 就 无 法 通过 了 ,如 
果 搜 索 'CANNOTSEARCH” 这 个 理应 不 会 有 什么 结果 的 关键 词 ,测试 的 结果 如 图 8-8 
所 示 。 


1 test failed - 95 876ms 


图 8-8 更 改 搜索 关键 词 后 的 测试 结果 
毫 不 夸张 地 说 ,任何 网 站 (当然 也 包括 用 户 自己 创建 管理 的 网 站 ) 的 内 容 都 可 以 
使 用 Selenium 进行 单元 测试 ,并 且 正 如 大 家 所 看 到 的 那样 ,测试 代码 的 编写 也 并 不 
复杂 。 


8.5 本章 小 结 


本 章 重点 讨论 了 Python 单元 测试 的 概念 和 方法 ,之 后 介绍 了 使 用 Selenium 做 
网 站 测试 的 思路 。 其 中 使 用 了 一 个 维基 百科 的 例子 来 说 明 测 试 的 具体 编写 ， 
Selenium 测试 所 能 做 的 远 远 不 止 这 一 点 ,使 用 Selenium 提供 的 种 种 操作 (主要 以 
WebDriver 的 各 种 类 方法 来 体现 ) ,用 户 能 够 完成 很 多 不 同 的 测试 ,在 这 个 角度 上 ,网 
络 仆 虫 与 网 站 测试 之 间 似 乎 没有 什么 太 大 的 区 别 。 另 外 ,本 章 提 到 了 两 个 Python 单 
元 测试 工具 一 一 unittest 和 pytest, 有 兴趣 的 读者 可 以 继续 了 解 PyUnit、Nose 等 其 他 
模块 。 
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更 强大 的 爬虫 


在 本 章 中 将 试图 让 候 虫 程序 变 得 更 为 强壮 ,介绍 主流 的 候 虫 框架 ,另外 还 会 从 网 
站 反 息 虫 策略 、 扑 虫 性 能 和 分 布 式 仆 虫 几 个 方面 进行 讨论 。 


9.1 爬虫 框架 


9.1.1 Scrapy 是 什么 


按照 官方 的 说 法 ,Scrapy 是 一 个 “为 了 扑 取 网 站 数据 、 提 取 结 构 性 数据 而 编写 的 
Python 应 用 框架 ,可 以 应 用 在 包括 数据 挖掘 、 信 息 处 理 或 存储 历史 数据 等 各 种 程序 
中 ”Scrapy 最 初 是 为 了 网 页 抓 取 而 设计 的 ,也 可 以 应 用 在 获取 API 所 返回 的 数据 
或 者 通用 的 网 络 息 虫 开发 之 中 。 作 为 一 个 候 虫 框架 ,用 户 可 以 根据 需求 十 分 方便 地 
使 用 Scrapy 编写 出 自己 的 候 虫 程序 。 毕 竞 要 从 使 用 requests( 或 者 urllib) 访 问 URL 
开始 编写 ,把 网 页 解析 、 元 素 定位 等 功能 一 行 一 行 写 进去 ,再 编写 爬虫 的 循环 抓 取 策 
略 和 数据 处 理 机 制 等 其 他 功能 ,这 些 流程 做 下 来 ,工作 量 其 实 也 是 不 小 的 。 使 用 特定 
的 框架 可 以 帮助 用 户 更 高 效 地 定制 疏 虫 程序 。 在 各 种 Python MERHER rh. Scrapy 因 
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为 合理 的 设计 、 简 便 的 用 法 和 十 分 广泛 的 资料 等 优点 脱颖而出 ,成 为 比较 流行 的 疏 虫 
框架 ,在 这 里 对 它 进行 比较 详细 的 介绍 。 当 然 , 深 入 了 解 一 个 Python 库 的 相关 知识 
的 最 好 方式 就 是 去 它 的 官网 查看 官方 文档 , Scrapy 的 官方 网 址 是 “https://scrapy. 
org/”, 读 者 可 以 随时 访问 并 查看 最 新 的 消息 。 

作为 可 能 是 最 流行 的 Python f rb HEAR, SH Scrapy ME nh 4i 5 Je JH P e fe n FP 
Apu EE. CER Python JE ruf 484 4R 4 HEHE VI T$ DEAS 

从 构件 上 看 ,Scrapy 3x47 f& He HEAR 3: 32 i DL F HPRH JL 

* 引擎 (Scrapy) ; 用 来 处 理 整个 系统 的 数据 流 , 触 发 事务 ,是 框架 的 核心 。 
调度 器 (Scheduler) : 用 来 接受 引擎 发 过 来 的 请 求 , 将 请 求 放 入 队列 中 ,并 在 引 
擎 再 次 请 求 的 时 候 返 回 。 它 决定 下 一 个 要 抓 取 的 网 址 ,同时 担负 着 “网址 去 
重 ” 这 一 重要 工作 。 
下 载 器 (Downloader): 用 于 下 载 网 页 内 容 , 并 将 网 页 内 容 返 回 给 息 虫 。 下 载 
器 的 基础 是 twisted, 它 是 一 个 Python 网 络 引擎 框架 。 
MEIH (Spiders): 用 于 从 特定 的 网 页 中 提取 自己 需要 的 信息 , 即 Scrapy 中 所 请 
的 实体 (Item)。 用 户 也 可 以 从 中 提取 出 链接 ,让 Scrapy 继续 抓 取 下 一 个 
页 面 。 
管道 (Pipeline) ;负责 处 理 候 虫 从 网 页 中 抽取 的 实体 ,主要 的 功能 是 持久 化 信 
息 、 验 证 实体 的 有 效 性 、 清 洗 信息 等 。 当 页 面 被 仆 虫 解析 后 将 被 发 送 到 管道 ， 
并 经 过 特定 的 程序 来 处 理 数据 。 
下 载 器 中 间 件 (Downloader Middlewares): Scrapy 引擎 和 下 载 器 之 间 的 框 
架 ,主要 是 处 理 Scrapy 引擎 与 下 载 器 之 间 的 请 求 及 响应 。 
ME P Yi] 4 (Spider Middlewares) : Scrapy 引擎 和 爬虫 之 间 的 框架 ,主要 工作 
是 处 理 爬 虫 的 响应 输入 和 请 求 输出 。 
调度 中 间 件 (Scheduler Middlewares): Scrapy 引擎 和 调度 之 间 的 中 间 件 ,从 
Scrapy 引擎 发 送 到 调度 的 请 求 和 响应 。 

它们 之 间 关 系 的 示意 可 见 图 9-1。 

具体 地 说 ,一 个 Scrapy MG AY TAE iit FEN F : 

SB — AG 3| EFT IE — A FE 9 . 3 B b RET PA S HY E ri (Spider) ,并 向 该 Spider 请 
KS — 1 EIER URL. 
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图 9-1 Scrapy 架构 


第 二 步 ,引擎 从 Spider rPr 3k HB 56 — A HAY URL 并 在 调度 器 (Scheduler) 
中 以 requests 调度 。 

第 三 步 ,引擎 向 调度 器 请 求 下 一 个 要 疏 取 的 URL. 

第 四 步 ,调度 器 返回 下 一 个 要 疏 取 的 URL 给 引擎 ,引擎 将 URL 通过 下 载 器 中 间 
件 转发 给 下 载 器 (Downloader) 。 

一 旦 页 面 下 载 完 毕 , 下 载 器 会 生成 一 个 该 页 面 的 responses, 并 将 其 通过 下 载 器 
中 间 件 发 送 给 引擎 。 引擎 从 下 载 器 中 接收 到 responses 并 通过 Spider 中 间 件 (Spider 
Middlewares) 发 送 给 Spider 处 理 。 之 后 Spider 处 理 responses Jf-3& [PUE HC SI f] Item 
及 发 送 ( 跟 进 的 ) 新 的 requests 给 引擎 。 引 擎 将 疏 取 到 的 Item 传递 给 Item Pipeline, 
Hi (Spider 返回 的 )requests 传递 给 调度 器 。 重 复 以 上 从 第 二 步 开始 的 过 程 直 到 调度 
器 中 没有 更 多 的 request, 最 终 引 擎 关闭 网 站 。 


9.1.2 Scrapy 的 安装 与 人 门 


用 户 可 以 使 用 pip 十 分 轻松 地 安装 Scrapy, 为 了 安装 Scrapy, 可 能 需要 首先 使 用 
以 下 命令 安装 lxml E: 


pip install lxml 


如 果 已 经 安装 了 lxml, 那 么 就 可 以 直接 安装 Scrapy: 


pip install scrapy 
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在 终端 中 执行 以 下 命令 (后 面 的 网 址 可 以 是 其 他 域名 ,例如 www. baidu. com): 


scrapy shell www. douban. com 


可 以 看 到 Scrapy 的 反馈 ,如 图 9-2 所 示 。 


[s] Available Scrapy objects: 


[s]  scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc 
[s] crawler «scrapy.crawler.Crawler object at 0x1053c0b70» 
[s] item ü 


[s] request «GET http: //www.douban.com> 

[s] response «403 http://www.douban.com» 

[s] settings <scrapy.settings.Settings object at 0x10633b358» 
[s] spider «DefaultSpider 'default' at 0x106682ef0» 

[s] Useful shortcuts: 

[s]  fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirect 
s are followed) 

[s] fetch(req) Fetch a scrapy.Request and update local objects 
[s]  shelp() Shell help (print this help) 

lils] —view(response) View response in a browser 


图 9-2 Scrapy 的 反馈 
使 用 “scrapy -v” 可 以 查看 目前 安装 的 Scrapy 框架 的 版 本 ,如 图 9-3 所 示 。 


Scrapy 1.4.0 - no active project 


Usage: 
scrapy <command> [options] [args] 


Available commands: 


bench Run quick benchmark test 

fetch Fetch a URL using the Scrapy downloader 

genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project 
settings Get settings values 

shell Interactive scraping console 

startproject Create new project 

version Print Scrapy version 

view Open URL in browser, as seen by Scrapy 

[ more ] More commands available when run from project directory 


Use "scrapy «command» -h" to see more info about a command 


图 9-3 查看 Scrapy 的 版 本 
看 到 这 些 信 息 就 说 明 Scrapy 已 经 安装 成 功 。 在 PyCharm IDE 中 安装 Scrapy 也 
很 简单 ,在 Preference— Project Interpreter 面板 中 单 击 “ 十 ”, 在 搜索 框 中 搜索 并 单 击 
Install Package 即 可 。 如 果 有 多 个 Python 环境 ,在 Project Interpreter 中 选择 一 个 
即 可 。 
如 果 用 户 尝 试 在 Windows 系统 中 安装 使 用 Scrapy, 可 能 需要 预先 安装 一 些 
Scrapy 依赖 的 库 ,首先 是 Visual C** Build Tools, 在 此 过 程 中 可 能 需要 安装 较 新 版 本 
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的 . NET Framework: 之 后 需要 安装 pywin32, 这 里 需要 直接 下 载 EXE 文件 安装 ?; 
接 下 来 ,用 户 还 需要 安装 twisted( 如 上 文 所 述 ,twisted 是 Scrapy 的 基础 之 一 ) ,使 用 
pip install twisted 命令 即 可 。 

当然 ,Scrapy 还 可 以 使 用 Conda 工具 安装 ,这 里 就 不 再 袭 述 了 。 

为 了 在 终端 创建 一 个 Scrapy 项 目 , 首 先进 入 自己 想 要 存放 项 目的 目录 ,用 户 也 
可 以 直接 新 建 一 个 目录 (文件 夹 ), 这 里 在 终端 中 使 用 命令 创建 一 个 新 目录 并 进入 : 


mkdir newcrawler 
cd newcrawler/ 


之 后 执行 Scrapy 框架 的 对 应 命令 : 


scrapy startproject newcrawler 


此 时 会 发 现 目 录 下 多 出 一 个 新 的 名 为 neweramer/ 


[一 newcrawler 


newcrawler 的 目录 ,查看 这 个 目录 的 结构 ( 见 图 9-4) 。 [e] i 
这 是 一 个 标准 的 Scrapy fe dust H iR. uae — 
middlewares.py 
【提示 】 在 Linux 和 Mac OS 系统 中 可 以 使 用 pipelines, py 
settings.py 
tree 命令 查看 文件 目录 的 树 形 结 构 。 在 Linux 下 执行 | 
一 pycache__ 
"apt-get install tree” 命 令 即 可 安装 这 个 工具 。 在 Mac screpysofg 
OS 下 可 以 使 用 homebrew 工具 并 执行 “brew install 图 9-4 newcrawler 目录 结构 
tree" 命 令 来 安装 。 


其 中 ,items. py 定义 了 息 虫 的 “实体 ”类 , middlewares. py 是 中 间 件 文件 ， 
pipelines. py 是 管道 文件 ,spiders XC fF 3e FAA f& Bh. scrapy. cfg 则 是 爬虫 的 配 
置 文件 。 

使 用 IDE 创建 Scrapy 项 目的 步骤 几乎 一 模 一 样 ,在 PyCharm 中 切换 到 
Terminal 面板 (终端 ) ,执行 上 述 各 个 命令 即 可 。 然 后 执行 新 建 怜 虫 的 命令 : 


scrapy genspider DoubanSpider douban. com 


输出 为 : 


© 下 载 地 址 是 “https://sourceforge. net/projects/pywin32/files/pywin32/Build%20220/”。 
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Created spider 'DoubanSpider' using template 'basic" 


不 难 发 现 ,genspider 命令 用 于 创建 一 个 名 为 ”Fa 
“DoubanSpider” 的 新 让 虫 肢 本 ,这 个 让 虫 对 应 的 
域 为 douban. com。 在 输出 中 可 以 发 现 一 个 名 为 sea domina = inim com'] 
“basic” 的 模板 ,这 其 实 是 Scrapy AY MEHR, fl et warae( att, response) 
括 basic crawl, csvfeed 以 及 xmlfeed, 在 后 面 会 详 
细 介 绍 。 这 里 进入 DoubanSpider. py 查看 ( 见 
图 9-5) 。 

可 见 它 继 承 了 scrapy. Spider 类 ,其 中 还 有 一 些 类 属性 和 方法 。name 用 来 标识 
爬虫 , 它 在 项 目 中 是 唯一 的 ,每 一 个 候 虫 都 有 一 个 独特 的 name。parse() 是 一 个 处 理 
response 的 方法 ,在 Scrapy 中 ,response 由 每 个 request 下 载 生 成 。 作 为 parse() 方 法 
的 参数 ,response 是 一 个 TextResponse 的 实例 ,其 中 保存 了 页 面 的 内 容 。start_urls 
列表 是 一 个 代替 start_requests() 方 法 的 捷径 ,所 谓 的 start_requests() 方 法 , 顾 名 思 
义 ,其 任务 就 是 从 URL 生成 scrapy. Request 对 象 ,作为 息 虫 的 初始 请 求 。 大 家 之 后 
遇 到 的 Scrapy 息 虫 基本 上 都 有 着 类 似 这 样 的 结构 。 

进入 items. py 文件 中 ,用 户 会 看 到 下 面 这 样 的 内 容 : 


图 9-5 DoubanSpider 


# -*- coding: utf - 8 -*- 


# Define here the models for your scraped items 

* 

# See documentation in: 

# http://doc. scrapy. org/en/latest/topics/items. html 


import scrapy 
class NewcrawlerItem(scrapy. Item): 
# define the fields for your item here like: 


# name = scrapy. Field() 
pass 


9.1.3 编写 Scrapy Muh 


为 了 定制 Scrapy JEH. AP SEE A CO A s RE SCA I] AY Item, 例 如 创建 一 个 
xp st TAT Pr Ad TE SCC B8 KG Items. py 中 的 内 容 改写 为 : 
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class TextItem(scrapy. Item): 
# define the fields for your item here like: 
text = scrapy. Field() 


之 后 编写 DoubanSpider. py: 


# —*— coding: utf 一 8 -*- 

import scrapy 

from scrapy.selector import Selector 
from ..items import TextItem 


class DoubanspiderSpider(scrapy. Spider): 
name = 'DoubanSpider' 
allowed domains = [ 'douban.com'] 
start urls = ['https://www. douban. com/ '] 


def parse(self, response): 
item = TextItem() 
hltext = response.xpath( '//a/text() ') . extract() 
print("Text is" + ''. join(hltext)) 
item[ 'text'] = hltext 
return item 


GER] 一 个 爬 夹 项 目 可 以 有 多 个 不 同 的 爬 贝 类 ,因为 很 多 时 候 用 户 会 想 在 一 
组 网 页 中 收集 不 同类 别 的 信息 (例如 一 个 电影 介绍 网 页 的 演员 表 、 剧 情 简介 海报 图 
KF) ,此 时 可 以 为 它们 设 定 独立 的 Item ŽA AR E] 49 fe Sk iE 47 fe R, 

这 个 仆 虫 会 先进 入 start urls 列表 中 的 页 面 (在 这 个 例子 中 就 是 豆瓣 网 的 首页 )， 
收集 信息 完毕 后 就 会 停止 。response. xpath( '//a/text O '). extract() 这 行 语句 将 从 
response( 其 中 保存 着 网 页 信息 ) 中 使 用 XPath 语句 抽取 出 所 有 “a” 标 签 的 文字 内 容 
(text)。 下 一 句 会 将 它们 逐一 打印 。 

在 运行 第 一 个 简单 的 Scrapy MER Z Ai, EREA settings. py 文件 看 一 眼 , 它 应 该 
是 这 个 样子 的 (部 分 内 容 ): 


# Obey robots. txt rules 
ROBOTSTXT_OBEY = True 


# Configure maximum concurrent requests performed by Scrapy (default: 16) 
# CONCURRENT REQUESTS = 32 


# Configure a delay for requests for the same website (default: 0) 
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# See http://scrapy. readthedocs. org/en/latest/topics/settings. html # download - delay 
# See also autothrottle settings and docs 
# DOWNLOAD DELAY = 3 


对 于 ROBOTSTXT _OBEY 大 家 都 很 熟悉 了 , 如果 启用 , Scrapy 就 会 遵循 
robots. txt 的 内 容 。CONCURRENT_REQUESTS 设 定 了 并 发 请 求 的 最 大 值 ,在 这 
里 是 被 注释 掉 的 ,也 就 是 说 没有 限制 最 大 值 。DOWNLOAD_DELAY 的 值 设 定 了 下 
载 器 在 下 载 同一 个 网 站 的 每 个 页 面 时 需要 等 待 的 时 间 间 隔 。 通 过 设置 这 些 选 项 ,用 
户 可 以 限制 程序 的 疏 取 速度 ,减轻 服务 器 的 压力 。 

settings. py 中 的 另外 一 些 重要 设置 如 下 。 

BOT NAME: Scrapy 项 目的 bot 名 称 ,使 用 startproject 命令 创建 项 目 时 会 
自动 赋值 。 

ITEM PIPELINES: 保存 项 目 中 启用 的 Pipeline 及 其 对 应 顺序 ,使 用 一 个 字 
典 结构 。 字 典 默认 为 空 , 值 (value) 一 般 设 定 在 0 一 1000。 数 字 小 代表 优先 
级 高 。 

LOG ENABLED: 是 否 启用 logging. RUH True. 

LOG LEVEL: 设 定 log 的 最 低级 别 。 

USER AGENT: 默认 的 用 户 代理 。 

在 运行 Scrapy 疏 虫 脚本 后 往往 会 生成 大 量 的 程序 调试 信息 ,这 对 于 观察 程序 的 
运行 状态 是 很 有 用 的 。 不 过 ,为 了 保持 输出 的 简洁 ,用 户 可 以 设置 LOG. LEVEL. 
Python 中 的 log 级 别 一 般 有 DEBUG, INFO, WARNING, ERROR, CRITICAL 等 ， 
其 "严重 性 ?逐渐 增加 ,其 包含 的 范围 逐渐 缩小 。 当 把 LOG_LEVEL 设置 为 'ERROR' 
时 ,只 有 ERROR 和 CRITICAL 级 别 的 日 志 会 显示 出 来 。 顺 便 一 提 , 日 志 不 仅 可 以 在 
终端 显示 ,用 户 还 可 以 用 Scrapy 命令 行 工具 将 日 志 输 出 到 文件 中 。 

接着 把 目光 转向 USER_AGENT, 为 了 让 息 虫 看 起 来 更 像 一 个 浏览 器 ,这 样 的 原 
^E USER. AGENT 就 显得 不 合适 了 : 


# USER_AGENT = 'newcrawler ( + http://www. yourdomain.com) ' 


这 里 将 USER. AGENT 取消 注释 并 编辑 ,结果 为 : 


USER AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/36.0.1985.125 Safari/537.36' 


Python Pj 28 e h RER 
oO 


[Rm] 为 避免 被 网 站 屏蔽 ,在 爬 取 网 站 时 经 常 要 定义 和 修改 USER-AGENT 
值 ( 用 户 代 理 ) ,将 爬 贝 程序 对 网 站 的 访问 “伪装 ?成 正常 的 浏览 器 请 求 。 关 于 如 何 处 
理 网 站 的 反扑 虫 机 制 ,在 后 面 的 章节 中 会 继续 讨论 。 

将 这 些 设置 做 完 后 就 可 以 开始 运行 这 个 怜 虫 了 ,运行 疏 虫 的 命令 如 下 : 


Scrapy crawl spidername 


其 中 ,spidername J&Jf& HAY fr . BE RÆ PHJ name 属性 。 
在 程序 运行 并 抓 取 后 ,用 户 可 以 看 到 类 似 图 9-6 所 示 的 输出 ,说 明 Scrapy 成 功 地 
进行 了 抓 取 。 


na APAUBCUANBRERZICKREAOBORORRBIRUDNOARURZRASAAE| 
$. mumamkauspARRWEROnT-K8) SEDO 


PLI 

AXRSAR-SZUTEBORIARA 
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图 9-6 Scrapy 的 DoubanSpider 的 输出 


除了 简单 的 scrapy. Spider 以 外 ,Scrapy 还 提供 了 CrawlSpider CSV Feed SEEE 
模板 ,其 中 CrawlSpider 是 最 为 常用 的 。 另 外 ,Scrapy 的 Pipeline 和 Middleware 都 支 
持 扩展 ,配合 主 聆 虫 类 使 用 将 取得 很 流畅 的 抓 取 和 调试 体验 。 


9.1.4 其 他 怜 虫 框架 


Python f rh f£ 38 KARIE Scrapy 一 种 ,在 其 他 诸多 爬虫 框架 中 比较 值得 一 提 的 
是 PySpider,Portia 等 。PySpider 是 一 个 “国产 ”的 框架 ,由 国内 开发 者 编写 ,提供 一 
个 可 视 化 的 Web 界面 来 编写 、 调 试 脚本 ,使 得 用 户 可 以 进行 诸多 其 他 操作 ,例如 执行 
或 停止 程序 监控 执行 状态 、 查 看 活动 历史 等 。Portia 则 是 另外 一 款 开 源 的 可 视 化 疏 
虫 编写 工具 ,Portia 也 提供 了 Web UI 页 面 ( 见 图 9-7) ,用 户 只 需要 通过 单 击 并 标注 页 
面 上 需要 抓 取 的 数据 即 可 完成 伶 虫 。 
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除了 Python 以 外 ,Java 语言 也 常用 于 疏 虫 的 开发 ,比较 常见 的 怜 虫 框 架 有 
Nutch、Heritrix、WebMagic、Gecco 等 。 疏 虫 框架 流行 的 原因 就 在 于 开发 者 需要 “多 
快 好 省 ”地 完成 一 些 任务 . Dl an E HY URL 管理 、 线 程 池 之 类 的 模块 ,如 果 自 己 从 零 
做 起 ,势必 需要 一 段 时 间 的 实验 ,调试 和 修改 。 怜 虫 框架 将 一 些 * 底 层 ? 的 事务 预先 做 
好 ,开发 者 只 需要 将 注意 力 放 在 怜 虫 本 身 的 业务 逻辑 和 功能 的 开发 上 即 可 。 


SS € 


图 9-7 Portia 自 带 的 Web 界面 


9.2 MRM a 


9.2.1 Jeu EE 


V 35 Jf du i6) th R na AR (R] 96 ,建立 网 站 的 目的 是 为 了 服务 普通 人 类 用 户 , 而 过 多 
的 来 自 怜 虫 程序 的 访问 无 疑 会 增 大 不 必要 的 资源 压力 ,不 仅 不 能 够 为 网 站 带 来 真实 
的 流量 (能 够 创造 商业 效益 或 社会 影响 力 的 用 户 访问 数 ), 反 而 白白 浪费 了 服务 器 和 
运行 成 本 。 为 此 ,网 站 方 总 是 会 设计 一 些 机 制 来 进行 “ 反 息 虫 ”, 与 之 相对 , 扑 虫 编写 
者 们 使 用 各 种 方式 避 开 网 站 的 反 息 虫 机 制 就 被 称 为 “ 反 反 息 虫 ”( 当 然 ,递归 来 看 ,还 
存在 “ 反 反 反 息 虫 ”等 )。 网 站 反 息 虫 的 机 制 从 简单 到 复杂 各 不 相同 ,基本 思路 就 是 要 
识别 出 一 个 访问 是 来 自 于 真实 用 户 还 是 来 自 于 开发 者 编写 的 计算 机 程序 (这 么 说 其 
实 有 歧义 ,实际 上 真实 用 户 的 访问 也 是 通过 浏览 器 程序 来 实现 的 )。 因 此 ,一 个 好 的 
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反扑 忠 机 制 的 基本 需求 就 是 尽量 多 地 识别 出 真正 的 候 虫 程序 ,同时 尽量 少 地 将 普通 
用 户 访问 误 判 为 仆 虫 。 识 别 候 虫 后 要 做 的 事情 其 实 很 简单 ,根据 其 特征 限制 乃至 禁 
止 其 对 页 面 的 访问 即 可 。 但 这 也 导致 反 怜 虫 机 制 本 身 的 一 个 尴 诊 局 面 , 那 就 是 当 反 
疏 虫 力度 小 的 时 候 往往 会 有 * 漏 网 之 鱼 ”( 疏 虫 ) ,但 当 反 疏 虫 力度 大 的 时 候 却 有 可 能 
损失 真实 用 户 的 流量 ( 即 “ 误 伤 ”)。 

从 具体 手段 上 看 ,反扑 虫 可 以 包括 很 多 方式 。 

(1) 识别 request headers 信息 : 这 是 一 种 十 分 基础 的 反 息 虫 手 段 ,主要 是 通过 验 
证 headers 中 的 User-Agent 信息 来 判定 当前 访问 是 否 来 自 于 常见 的 界面 浏览 器 。 更 
复杂 的 headers 信息 验证 则 会 要 求 验证 Referer, Accept-Encoding 等 信息 ,一 些 社交 
网 络 的 页 面 甚至 会 根据 某 一 特定 的 页 面 类 别 使 用 独特 的 headers 字段 要 求 。 

(2) 使 用 AJAX 和 动态 加 载 : 严格 地 说 这 不 是 一 种 为 反 疏 虫 而 生 的 手段 ,但 由 于 
使 用 了 动态 页 面 ,如 果 对 方 息 虫 只 是 简单 的 静态 网 页 源 代码 解析 程序 ,那么 就 能 够 起 
到 保护 数据 和 流量 的 作用 。 

(3) 应 用 验证 码 : 验证 码 机 制 (在 前 面 的 内 容 中 已 经 涉及 ) 与 反 疏 虫 机 制 的 出 发 
点 非常 契合 , 那 就 是 辨别 出 机 器 程序 和 人 类 用 户 的 不 同 。 因 此 验证 码 被 广泛 用 于 限 
制 异常 访问 ,一 个 典型 的 场景 是 , 当 页 面 受 到 短 时 间 内 频次 异常 高 的 访问 后 就 在 下 一 
次 访问 时 弹出 验证 码 。 作 为 一 种 具有 普遍 应 用 场景 的 安全 措施 ,验证 码 无 疑 是 整个 
反扑 虫 体系 中 的 重要 一 环 。 

(4) 保护 服务 器 返回 的 信息 : 通过 加 密 信息 、 返 回 虚假 数据 等 方式 保护 服务 器 返 
回 的 信息 ,避免 被 直接 息 取 ,一 般 会 配合 AJAX 技术 使 用 。 

(5) 限制 或 封禁 IP: 这 是 反 仆 虫 机 制 最 主要 的 “触发 后 动作 ”, 判 定 为 候 虫 后 就 限 
制 乃至 封禁 当前 来 自 IP 地 址 的 访问 。 

(6) 修改 网 页 或 URL 内 容 : 尽量 使 网 页 或 URL 结构 复杂 化 ,乃至 通过 对 普通 用 
户 隐藏 某 些 元 素 和 输入 等 方式 来 区 别 用 户 和 怜 虫 。 

(7) 账号 限制 : 即 只 有 登录 账号 才能 访问 网 站 数据 。 

从 “ 反 反 扑 虫 ”的 角度 出 发 ,下 面 简单 介绍 几 种 避 开 网 站 反 息 虫 机 制 的 方法 ,可 以 
绕 过 一 些 普 通 的 反扑 虫 系统 ,这 些 方法 包括 伪装 headers 信息 、 使 用 代理 IP、 修 改 访 
问 频率 、 动 态 拨 号 等 。 
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【提示 】 从 道德 和 法 律 的 角度 出 发 ,用 户 应 该 坚持 “友善 ”的 假 虫 ,不 仅仅 需要 考 
虑 可 能 会 对 网 站 服务 器 造成 的 压力 (例如 ,用 户 应 该 至 少 设置 一 个 不 低 于 几 百 毫秒 的 
访问 间隔 时 间 ), 更 应 该 考虑 自己 对 爬 取 到 的 数据 采取 的 态度 。 对 于 很 多 网 站 上 的 数 
据 ( 尤 其 是 那些 由 网 站 用 户 创 作 的 数据 ,UGC) 而 言 , 滥 用 这 些 数 据 可 能 会 造成 侵权 行 
为 。 如 果 有 必要 ,在 尽量 避免 商业 应 用 的 时 候 还 应 该 关注 网 站 本 身 对 这 些 数据 的 


声明 。 


9.2.2 伪装 headers 


正 因为 headers 信息 是 网 站 方 用 来 识别 访问 的 最 基本 手段 ,因此 用 户 可 以 在 这 方 
面 下 点 功夫 。headers( 头 字段 六 定义 了 一 个 超 文本 传输 协议 事务 中 的 操作 参数 ”, 仅 
就 用 户 在 疏 虫 编写 中 最 常 接触 的 request header( 请 求 头 字段 ) 而 言 , 一 些 常 见 的 字段 


名 和 含义 如 表 9-1 所 示 。 


表 9-1 header 信息 说 明 ( 部 分 ) 


字 段 名 a x 
Accept 指定 客户 端 能 够 接收 的 内 容 类 型 
Accept-Charset 浏览 器 可 以 接收 的 字符 编码 集 
Accept-Encoding 浏览 器 可 以 支持 的 Web 服务 器 返回 内 容 的 压缩 编码 类 型 
Accept-Language 浏览 器 可 以 接收 的 语言 
Accept-Ranges 可 以 请 求 网 页 实体 的 一 个 或 者 多 个 子 范围 字段 
Authorization HTTP 授权 的 授权 证 书 
Cache-Control 指定 请 求 和 响应 遵循 的 缓存 机 制 
Connection 是 否 需 要 持久 连接 
Cookie Cookie 信息 
Date 请 求 发 送 的 日 期 和 时 间 
下 xpect 请 求 的 特定 的 服务 器 行为 


Host 


指定 请 求 的 服务 器 主机 的 域名 和 端口 号 等 


If-Unmodified-Since 


只 在 实体 于 指定 时 间 之 后 未 被 修改 才 请 求 成 功 


Max-Forwards 限制 信息 通过 代理 和 网 关 传 送 的 时 间 
Pragma 用 来 包含 实现 特定 的 指令 
Range 只 请 求实 体 的 一 部 分 ,指定 范围 


Referer 


先前 网 页 的 地 址 
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续 表 
FRA ew X 
TE 客户 端 愿意 接收 的 传输 编码 ,并 通知 服务 器 接收 尾 加 头 信息 
Upgrade 向 服务 器 指定 某 种 传输 协议 以 便服 务 器 进行 转换 (如 果 支 持 ) 
User-Agent User-Agent 的 内 容 包 含 发 出 请 求 的 用 户 信息 ,主要 是 浏览 器 信息 
Via 通知 中 间 网 关 或 代理 服务 器 地 址 ,通信 协议 


请 求 头 信息 很 多 ER 9-1 中 其 实 并 未 完全 列 出 ,在 该 表 中 最 为 常用 的 是 Host, 


User-Agent, Referer, Accept, Accept-Encoding, Connection 和 Accept-Language, 这 
些 是 用 户 最 需要 关注 的 字段 。 随 便 打 开 一 个 网 页 ,观察 Chrome 开发 者 工具 中 显示 
的 request header 信息 ,用户 就 能 够 大 致 理解 上 面 字 段 的 含义 ,例如 打开 百度 首页 时 ， 
访问 (GET) www. baidu. com 的 请 求 头 信息 如 下 : 


Accept: text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, image/apng, 
*/*;q-0.8 

Accept - Encoding:gzip, deflate, br 

Accept - Language: en, zh;q = 0.9, zh- CN;q = 0.8,zh - TW;q=0.7,ja;q=0.6 

Cache - Control:max- age = 0 

Connection:keep- alive 


Cookie: XXX( 此 处 略 去 ) 


Host :www. baidu. com 

Referer:http://baidu. com/ 

Upgrade - Insecure - Requests:1 

User - Agent :Mozilla/5. 0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537. 36 (KHTML, 
like Gecko) Chrome/66. 0. 3359.181 Safari/537.36 


使 用 requests 可 以 十 分 快速 地 自 定 义 用 户 的 请 求 头 信息 ,requests 原始 GET 


操作 的 请 求 头 信息 是 非常 “傻瓜 ? 式 的 ,几乎 等 于 光明 正大 地 告诉 网 站 ”我 是 疏 


d 


o WhatIsMyBrowser 是 一 个 能 够 提供 浏览 请 求 识别 信息 的 站 点 ,其 中 的 


header 信息 查看 页 面 十 分 实用 (网 址 为 “https://www. whatismybrowser. com/ 


detect/what-http-headers-is-my-browser-sending”) ,通过 这 个 页 面 来 观察 requests 


Jf 


的 原始 headers 信息 。 当 用 Chrome 浏览 器 访问 这 个 页 面 时 ,显示 的 请 求 头 


信息 如 图 9-8 所 示 。 


利用 这 个 网 页 进行 几 行 Python 语句 的 编写 ,大 家 就 能 够 看 到 自己 requests 的 原 


始 请 求 头 UA 信息 ,只 需要 简单 的 网 页 解析 过 程 即 可 ,代码 见 例 9-1, 


There were 9 headers sent: 


ACCEPT 


ACCEPT ENCODING 


ACCEPT LANGUAGE 


CACHE CONTROL 
CONNECTION 


COOKIE 


HOST 


USER AGENT 


UPGRADE INSECURE REQUESTS 
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WhatisMyBrowser.com Detect 


Homepage > Detect > What HTTP Headers is my browser sending? 


What HTTP Headers is my browser sending? 


Every time your web browser opens a web page, it sends a "request" for that page. Part of that 
request includes a series of "headers". 


Here is the list of all the headers your browser sent when requesting this page. 


text/html applicatior/xhtmlxml,application/x 
ml;q=0.9,image/webp,image/apng,"/";q=0.8 


gzip, deflate, br 


en,zh;q=0.9,zh-CN;q=0.8,zh- 
TW;q: ja;q=0.6 


max-age=0 


keep-alive 


A "an, 


www.whatismybrowser.com 
1 


Mozilla/5.0 (Macintosh; Intel Mac OS X 
10_13_3) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/66.0.3359.181 Safar/537.36 


图 9-8 WhatIsMyBrowser 网 页 显示 的 请 求 头 信息 


【 例 9-1] 输出 requests 的 原始 请 求 头 UA 信息 。 


import requests 
from bs4 import BeautifulSoup 


# 一 个 可 以 显示 当前 访问 请 求 头 信息 的 网 页 
res = requests. get( ‘https: //www. whatismybrowser.com/detect/what - http - headers - is- my - 


browser - sending') 
bs = BeautifulSoup(res. text) 
# 定位 到 网 页 中 的 UA 信息 元 素 


td_list = [one. text for one in bs. find( table',('class': 'table']).findChildren()] 


print(td list[ - 1]) 


程序 的 输出 为 “python-requests/2. 18.4”, 如 此 “露骨 ”的 User-Agent 会 被 很 多 网 


© 
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站 直接 拒 之 门 外 , 为 此 用 户 需要 利用 requests 提供 的 方法 和 参数 来 修改 包括 User- 
Agent 在 内 的 headers 信息 。 


下 面 的 例子 虽然 简单 但 直观 ,将 请 求 头 更 换 为 Android 系统 (移动 端 )Chrome 浏 


览 器 的 请 求 头 UA, 然 后 利用 这 个 参数 通过 requests 来 访问 百度 贴吧 (tieba. baidu. 
com) ,将 访问 到 的 网 页 内 容 保存 在 本 地 ,然后 打开 ,可 以 看 到 这 是 与 计算 机 端 浏览 
所 呈现 的 页 面 完 全 不 同 的 手机 端 页 面 , 见 例 9-2 


【 例 9-2】 Bre UA 以 访问 百度 贴吧 首页 。 


import requests 
from bs4 import BeautifulSoup 


header data={ 

‘User — Agent ': 'Mozilla/5. 0 (Linux; Android 4. 0. 4; Galaxy Nexus Build/IMM76B) 
AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19', 
} 


r= requests. get( 'https: //tieba. baidu. con', headers = header data) 
bs = BeautifulSoup(r. content) 


with open('h2. html', 'wb') as f: 
f.write(bs.prettify(encoding- 'utf8')) 


在 上 面 的 代码 中 ,通过 headers 参数 加 载 了 一 个 字典 结构 ,其 中 的 数据 是 User- 


Agent 的 键 值 对 。 和 运行 程序 .打开 本 地 的 h2. html 文件 ,效果 如 图 9-9 所 示 。 


百度 贴吧 


Ws funere. ore 


Ad] 'Cr 者 xl 


图 9-9 本 地 HTML 文件 显示 的 贴吧 首页 


这 说 明 网 站 方 已 经 认为 用 户 的 程序 是 来 自 移动 端的 访问 ,从 而 最 终 提供 了 移动 


端 页 面 的 内 容 。 这 也 激发 了 大 家 的 一 个 灵感 ,很 多 时 候 UA 信息 将 会 决定 网 站 为 用 
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户 提供 的 具体 页 面 内 容 和 页 面 效果 ,准确 地 说 ,这 些 不 同 的 布局 样式 将 会 为 用 户 的 抓 
取 提 供 便利 ,因为 当 用 户 在 手机 浏览 器 上 浏览 很 多 网 站 时 ,它们 提供 的 实际 上 是 一 个 
相当 简洁 、 动 态 效果 较 少 ,关键 内 容 却 一 个 不 漏 的 界面 ,因此 如 果 有 需要 ,可 以 将 UA 
改 为 移动 端 浏览 器 试 试 在 目标 网 站 上 的 效果 ,如 果 能 够 获得 一 个 “ 轻 量 级 ”的 页 面 ,无 
疑 会 简化 用 户 的 抓 取 。 当 然 , 除 了 UA, 其 他 请 求 头 中 的 字段 也 可 以 进行 自 定义 并 在 
requests 请 求 中 设置 ,具体 例子 可 见 其 他 章节 中 的 相关 内 容 。 


9.2.3 使 用 代理 


大 部 分 网 站 会 根据 IP 来 识别 访问 ,因此 ,如 果 来 自 同 一 个 IP 的 访问 过 多 (如 何 
判定 “过 多 ”也 是 个 问题 ,一 般 是 指 在 一 段 较 短 的 时 间 内 对 同一 个 或 同一 组 页 面 访问 
的 次 数 较 大 ) ,那么 网 站 可 能 会 据 此 限制 或 屏蔽 访问 。 对 付 这 种 机 制 的 手段 就 是 使 用 
代理 他 。 代 理 他 可 以 通过 各 种 他 平台 乃至 全 池 服 务 来 获得 。 这 方面 的 资源 在 网 络 上 
非常 多 ,一 些 开发 者 也 维护 着 可 以 公开 免费 试用 的 代理 IP 服务 ( 见 图 9-10), 用 户 安装 
这 些 服 务 即 可 使 用 它 提供 代理 IP 的 API 接口 ,省 去 了 自己 寻找 并 解析 代理 地 址 的 
麻烦 。 


有 爬虫 IP 代 理 池 


介绍 文档 
支持 版 本: ERES ED 
© 测试 地 址 : http://123.207.35.36:5010 (单机 勿 压 。 感 谢 ) 


下 载 安装 
+ 下载 源码 : 


git clone gítggithub.com:jhao104/proxy pool.git 


BER BiESIhttps://github.com/jhao104/proxy pool 下 载 zip 文 件 
* 安装 依赖 : 


pip install -r requirements.txt 


9-10 Github Ffj3Efe d IP 代理 池 
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【提示 】 代理 IP 应 该 叫 “ 代 理 IP 服务 器 ”, 其 目标 就 是 代理 用 户 去 获取 网 络 上 
的 信息 ,类 似 于 中 转 站 的 作用 。 代 理 服 务 器 是 介 于 客户 端 (浏览 器 等 ) 和 服务 器 之 间 
的 另 一 台 “ 中 介 ” 服 务 器 ,代理 会 访问 目标 网 站 ,而 用 户 需 要 通过 代理 获取 最 终 需 要 的 
网 络 信 息 。 

在 requests 中 使 用 代理 IP 的 常见 方式 是 使 用 方法 中 的 proxies 参数 , 例 9-3 是 一 
个 使 用 代理 访问 CSDN 博客 的 例子 。 

【 例 9-3] 使 用 代理 增加 CSDN 的 博客 访问 量 。 


# 增加 博客 访问 量 

import re, random, requests, logging 

from lxml import html 

from multiprocessing.dummy import Pool as ThreadPool 


logging. basicConfig(level = logging. DEBUG) 
TIME OUT = 6 # 超时 时 间 
count =0 
proxies = [] 
headers = ('Accept': ‘text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, 
*/*;q-0.8', 

‘Accept - Encoding’: ‘gzip, deflate, sdch, br’, 

"Accept - Language’: 'zh- CN, zh;q=0.8', 

‘Connection’: ‘keep - alive’, 

‘Cache - Control’: 'max- age=0', 

‘Upgrade - Insecure - Requests’: '1', 

‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) ' 

'Chrome/36.0.1985.125 Safari/537.36', 

} 

PROXY_URL = ‘http://www. xicidaili.com/' 


def GetProxies(): 
global proxies 
try: 
res = requests. get(PROXY_URL, headers = headers) 
except: 
logging. error( Visit failed’) 
return 


ht = html. fromstring(res. text) 
raw_proxy_list = ht.xpath('// * [@id="ip_ list" ]/tbody/tr') 
for item in raw proxy list: 

if item. xpath('./td[6]/text()')[0] == 'HTTP': 
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proxies. append( 
dict( 
http = '():() '. format( 
item. xpath('. /td[2]/text()')[0], item. xpath('. /td[3]/text()')[0]) 


+ 获取 博客 文章 列表 
def GetArticles(url): 
res = GetRequest(url, prox = None) 
html = res. content. decode( 'utf - 8') 
rgx- «li class -"blog- unit">[ \n\t] * «a href ="(. * 2)"" target="_blank">’ 
ptn = re. compile(rgx) 
blog_list = re. findall(ptn, str(html)) 
return blog list 


def GetRequest(url, prox): 
eq = requests. get(url, headers = headers, proxies = prox, timeout = TIME OUT) 
return req 


* 访问 博客 

def VisitWithProxy(url): 
proxy = randon. choice(proxies) * 随机 选择 一 个 代理 
GetRequest(url, proxy) 


* 多 次 访问 
def VisitLoop(url): 
for i in range(count): 
logging.debug( Visiting: Vt()Vtfor () times'.format(url, i)) 
VisitWithProxy( url) 


if name == ' main 
global count 


GetProxies() # 获取 代理 
logging. debug( We got {} proxies'.format(len(proxies))) 
BlogUrl = input( Blog Address: ').strip(' ') 
logging. debug( 'Gonna visit()'.format(BlogUrl)) 
try: 

count = int(input( Visiting Count: ')) 
except ValueError: 

logging. error( Arg error! ') 

quit() 
if count -- 0 or count » 200: 

logging. error( Count illegal') 


o 
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quit() 


article list = GetArticles(BlogUrl) 

if len(article list) == 0: 
logging. error( 'No articles, eror! ') 
quit() 


for each link in article list: 
if not 'https://blog.csdn.net'in each link: 
each link- 'https://blog.csdn.net' * each link 
article list.append(each link) 
+ 多 线程 
pool ThreadPool(int(len(article list) / 4)) 
results = pool.map(VisitLoop, article list) 
pool.close() 
pool. join() 
logging. DEBUG( 'Task Done') 


在 这 段 代 码 中 ,通过 requests. get O JE EI] proxies 参数 使 用 了 代理 IP( 关 于 
requests 与 代理 的 使 用 也 可 见 附录 A 中 的 相应 内 容 ), 其 他 大 多 数 语 句 都 在 执行 访问 
网 页 .解析 网 页 、 抓 取 元 素 ( 文 本 ) 的 任务 。 为 保险 起 见 ,在 这 段 代 码 中 还 为 访问 设置 
了 伪装 的 浏览 器 headers 数据 ,其 中 包括 User-Agent 和 Accept-Encoding 等 主要 字段 

另外 ,该 程序 中 还 使 用 了 multiprocessing. dummy 模块 ,这 个 模块 是 为 多 线程 设 
il Glummy 3€ Jy (BL 89 , (9 (00 AY. Hz Br YE B multiprocessing 库 主 要 是 实现 多 进程 ,它们 
的 API 是 相似 的 ,dummy 子 模块 可 以 看 成 是 对 threading 的 一 个 包装 。 使 用 它们 实 
现 多 进程 或 多 线程 的 最 简单 方法 如 下 : 


from multiprocessing import Pool as ProcessPool 
from multiprocessing.dummy import Pool as ThreadPool 
* (EM multiprocessing 实现 多 进程 /多 线程 


def f(x): + 将 被 执行 的 函数 


return x * x 


if name  -- ' main ': 
with ProcessPool(5) as p: + 进程 池 
print(p.map(f, [1, 2, 3])) 
with ThreadPool(5) as p: # 线程 池 
print(p.map(f, [1, 2, 3])) 


使 用 这 样 的 更 换 不 同 代理 IP 的 程序 就 会 让 网 站 误 以 为 收 到 了 不 同 的 请 求 ,从 而 
达到 “ 刷 访问 量 ” 的 效果 ,但 其 背后 的 技术 原理 是 与 向 避 反 息 虫 机 制 有 关 的 ,也 就 是 
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说 ,通过 伪装 不 同 IP 的 方式 让 网 站 方 无 法 “ 记 住 " 和 “识别 ”用 户 的 程序 ,从 而 避免 被 


封禁 。 


9.2.4 访问 频率 


对 于 避免 “ 反 疏 虫 "而 言 ,其 实 最 粗暴 有 效 的 手段 就 是 直接 降低 对 目标 网 站 的 访 
问 量 和 访问 频次 ,从 某 种 意义 上 说 ,没有 不 喜欢 被 访问 的 网 站 ,只 有 不 喜欢 被 不 必要 
的 大 量 访问 打扰 的 网 站 。 有 一 些 网 站 可 能 会 阻止 用 户 过 快 地 访问 页 面 或 提交 数据 
(例如 表单 数据 ), 因 此 ,如 果 以 一 个 比 普通 用 户 快 很 多 的 速度 (“速度 ”一 般 指 频 率 ) 访 
问 网 站 ,尤其 是 访问 一 些 特定 的 页 面 ,也 有 可 能 被 反 息 虫 机 制 认为 是 异常 活动 。 从 这 
个 最 根本 的 “不 打扰 ”的 原则 出 发 ,最 有 效 的 “ 反 反 扑 虫 ”方法 是 降低 访问 频率 ,例如 在 
代码 中 加 入 time. sleep(2) 这 种 暂停 几 秒 的 语句 ,这 虽然 是 一 种 非常 策 的 方法 ,但 如 果 
目标 是 实现 一 个 不 被 网 站 发 现 是 非 人 类 的 息 虫 ,这 有 可 能 是 最 有 效 的 方法 。 

另外 一 种 策略 是 ,在 保持 高 访问 频次 和 大 访问 量 的 同时 尽量 模拟 人 类 的 访问 规 
律 , 减 少 机 械 性 的 迭代 式 抓 取 。 这 可 以 通过 设置 随机 抓 取 间隔 时 间 等 方式 来 实现 。 
机 械 性 的 间隔 时 间 ( 例 如 每 次 访问 都 间隔 0. 5 秒 ) 很 容易 被 判定 为 怎 虫 , 但 具有 一 定 
随机 性 的 间隔 时 间 ( 例 如 本 次 间隔 0. 2 秒 ,下 一 次 间隔 1. 6 秒 ) 却 能 够 起 到 一 定 的 作 
用 。 另 外 ,结合 禁用 Cookie 等 方式 则 可 以 避免 网 站 “ 认 出 ”用 户 的 访问 ,服务 器 将 无 
法 通过 Cookie 信息 判断 仆 虫 是 否 已 经 访问 过 页 面 。 

大 型 商业 网 站 往往 能 够 承受 很 高 频次 的 访问 ,而 一 些 用 户 流量 不 大 的 非 营 利 性 
网 站 (试想 打算 去 某 大 学 某 学 院 的 新 闻 页 列表 中 进行 抓 取 ) 不 会 将 短 时 间 内 的 高 频次 
访问 视 为 理 所 应 当 。 无 论 如 何 , 结 合 更 换 IP 和 设置 合适 的 怜 取 间 隔 两 种 方式 ,对 于 
“ 反 反 息 虫 ”而 言 都 是 至 关 重要 的 。 更 换 IP 其 实 不 一 定 需 要 代理 这 一 种 手段 ,对 于 直 
接 在 开发 者 的 机 器 上 运行 和 调试 的 怜 虫 程序 而 言 ,通过 断 线 重 连 的 方式 也 能 够 获得 
不 同 的 耳 , 如 果 机 器 接 和 人 的 网 络 服务 类 似 校园 网 和 ADSL( 非 对 称 数字 用 户 线路 宽带 
BEA) ,都 可 以 实现 断 线 重 连 拨号 换 IP. 

最 后 要 提 到 的 是 , 反 息 虫 的 目标 不 仅 在 于 保护 网 站 不 被 大 量 非 必要 访问 占用 资 
源 ,也 在 于 保护 一 些 对 于 网 站 方 可 能 有 特殊 意义 的 数据 ,如 果 在 编写 怜 虫 程序 时 ,用 
户 为 了 与 反 怜 虫 机 制作 斗争 而 必须 花 大 量 时间 分 析 网 页 中 对 数据 的 隐藏 和 保护 (最 
简单 的 例子 是 ,页 面 把 本 可 以 写 在 一 个 < p ></p > 中 的 数值 信息 分 散在 一 个 < div > 
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9.3 多 进程 与 分 布 式 


9.3.1 多 进程 编程 与 翁 虫 抓 取 


在 9.2.3 节 的 代理 IP 抓 取 示例 ( 例 9-3) 中 已 经 使 用 到 多 线程 抓 取 的 机 制 , 对 于 
Python 而 言 ,多 线程 提高 效率 的 效果 不 大 (这 与 Python 的 语言 设计 有 关 , 可 见 附录 A 
中 关于 全 局 解释 器 锁 的 讨论 ) ,因此 多 进程 是 用 户主 要 使 用 的 性 能 提升 手段 。 在 这 里 
通过 一 个 简单 的 例子 来 说 明 这 一 点 ,目标 网 页 是 豆 辩 某 一 图 书 的 短评 页 面 ,访问 该 图 
书 的 15 页 短评 ,通过 程序 开始 和 结束 的 时 间 差 来 衡量 爬虫 的 速度 , 见 例 9-4。 

【 例 9-4】 单 进程 与 多 进程 抓 取 网 页 的 对 比 。 


import requests 
import datetime 
import multiprocessing as mp 


def crawl(url, data): + 访问 
text = requests. get(url = url, params = data).text 
return text 


def func(page): # 执行 抓 取 
url = "https: //book. douban. com/subject/4117922/comments/hot" 
data = { 
"p': page 
) 
text = crawl(url, data) 
print("Crawling : page No. ()" . format( page) ) 


start = datetime. datetime. now() 
start_page=1 
end page = 15 


# 多 进程 抓 取 
# pages = [i for i in range(start_page, end_page)] 
# p= mp. Pool () 
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* p.map async(func, pages) 
# p.close() 
* p.join() 


# 单 进程 抓 取 
Page = start page 


for page in range(start page, end page): 
url = "https: //book. douban. com/subject/4117922/comments/hot" 
* get 参数 
data = { 
"p": page 
) 
content = crawl(url, data) 
print("Crawling : page No. {}". format(page) ) 


end = datetime. datetime. now( ) 
print("Time\t: ", end - start) 


当 使 用 单 进程 抓 取 时 ,输出 为 : 

Time: 0:00:07.660898 

当 更 改 代码 注释 ,使 用 多 进程 抓 取 时 ,输出 为 : 
Time: 0:00:02.134787 


可 见 , 多 进程 的 方案 与 单 进程 存在 很 大 的 速度 差异 , 当 把 目标 设 定 为 访问 50 页 
内 容 时 这 一 差异 就 更 加 明显 了 : 


Time: 0:00:26.655972( 单 进程 ) 
Time: 0:00:05.402101( 多 进程 ) 


当 访问 页 码 数 增加 到 50 页 时 , 单 进程 耗 时 从 7 秒 多 增长 到 26 秒 多 ,而 多 进程 方 
RM 2 秒 多 增长 到 5 秒 多 ,在 速度 上 优势 很 大 。 为 了 更 精确 地 进行 速度 对 比 ,还 可 以 
在 localhost(127. 0. 0. 1) 上 进行 访问 测试 ,最 终 对 比 效果 与 之 类 似 。 使 用 多 进程 抓 取 
时 的 关键 是 维护 抓 取 任务 的 队列 ,对 于 不 复杂 的 任务 ,通过 Python 自 带 的 进程 同步 
消息 队列 (例如 multiprocessing 中 的 queue 模块 等 ) 来 实现 即 可 。 

以 上 就 是 简单 的 多 进程 抓 取 与 单 进 程 抓 取 的 一 个 对 比 ,关于 多 线程 .多 进程 以 及 
多 进程 编程 的 更 多 内 容 可 参考 附录 A 中 的 相关 内 容 。 另 外 ,在 提高 抓 取 性 能 方面 ,还 
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可 以 引入 异步 机 制 (可 通过 Python 中 的 asyncio JE .aiohttp 库 等 实现 ) ,这 种 方式 利 
用 了 异步 的 原理 ,使 得 程序 不 必 等 待 HTTP 请 求 完 成 再 执行 后 续 任 务 ,在 大 批量 网 
页 抓 取 中 ,这 种 异步 的 方式 对 于 疏 虫 性 能 尤为 重要 。 例 9-5 是 一 个 简单 的 示例 。 

【 例 9-5] 使 用 aiohttp 访问 网 页 进行 抓 取 的 基本 模板 。 

import aiohttp 

import asyncio 

* 使 用 aiohttp 访问 网 页 的 例子 

async def fetch(session, url): 

# 2E requests. get 


async with session.get(url) as response: 
return await response. text() 


# 通过 asyncio 实现 单线 程 并 发 IO 
async def main(): 
# 类 似 requests 中 的 Session 对 象 
async with aiohttp. ClientSession() as session: 
html = await fetch(session, 'http://httpbin. org/headers') 
print (html) 


loop = asyncio.get event loop() 
loop.run until complete(main()) 


9.3.2 PMAR 
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大 象 关 进 冰箱 ”的 观点 来 看 ,只 需要 3 2b. 拥有 能 够 部 署 程 序 的 机 器 集群 ; 四 拥有 
—A RE fU; @ 拥 有 一 个 在 这 些 机 器 中 进行 分 发 的 任务 队列 。 分 布 式 息 虫 的 优点 
也 在 这 3 个 步骤 中 体现 ,最 主要 的 优点 是 能 够 通过 多 个 IP( 机 器 ) 进 行 访问 ,以 及 能 够 
通过 多 台 机 器 同时 运行 ,从 而 提高 抓 取 速率 。 从 这 个 角度 上 看 ,其 实 分 布 式 就 是 一 种 
更 高 级 别 的 多 进程 候 忠 (从 一 个 机 器 中 运行 多 个 进程 发 展 到 多 个 机 器 运行 进程 ), 因 
此 ,只 要 维护 好 分 布 式 队列 ,那么 怜 虫 在 速度 上 的 提高 也 是 必然 的 。 

分 布 式 怜 虫 主要 涉及 网 页 去 重 、 任 务 队列 管理 等 问题 ,但 编写 其 实 并 不 复杂 HE 
况 用 户 不 需要 “白手 起 家 ”, 可 以 使 用 一 些 现成 的 “轮子 ”, 包 括 各 种 候 虫 扩展 库 等 ,一 
些 流行 的 框架 (例如 Scrapy) 本 身 就 提供 了 分 布 式 候 虫 功能 。 一 种 经 典 的 分 布 式 息 虫 
方案 是 通过 scrapy-redis 库 对 目标 URL 进行 去 重 和 调度 ,用 mongodb 作为 底层 存 
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储 ,同时 使 用 redis 实现 分 布 式 任务 队列 。 
9.4 本 章 小 结 


本 章 突破 传统 requests JE HE YER. LA Scrapy 为 例子 介绍 了 主流 的 息 虫 框架 ， 
并 对 反扑 虫 机 制 做 了 一 些 深入 讨论 ,最 后 还 针对 提高 抓 取 性 能 介绍 了 一 些 比 较 实 用 
的 方法 ,其 中 分 布 式 聆 虫 是 大 型 疏 虫 项 目的 基础 ,有 兴趣 的 读者 可 以 对 相关 资料 做 深 
入 的 阅读 。 
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候 虫 实践 : 下 载 网 页 中 的 小 说 和 购物 评论 


视频 讲解 

本 章 将 选取 两 个 实用 且 有 趣 的 主题 作为 疏 虫 实践 的 内 容 , 分 别 是 抓 取 网 络 小 说 
的 内 容 和 抓 取 购 物 评 论 , 对 象 网 站 分 别 是 逐 浪 小 说 网 和 京东 网 。 这 是 两 个 非常 贴近 
生活 的 示例 ,有 兴趣 的 读者 可 以 在 本 章 的 基础 上 实现 自己 的 个 人 怜 虫 ,为 之 增添 更 多 
的 功能 。 


10.1 下 载 网 络 小 说 


网 络 文学 是 新 世纪 我 国 流行 文化 中 的 重要 领域 ,年 轻 人 对 网 络 小 说 更 是 有 着 广 
泛 的 喜爱 。 前 面 已 经 学 习 了 使 用 Selenium 自动 化 浏览 器 抓 取 信息 的 基础 , 接 下 来 以 
抓 取 网 络 小 说 正文 为 例 编写 一 个 简单 、 实 用 的 怜 虫 脚本 。 


10.1.1 分 析 网 页 


很 多 人 在 阅读 网 络 小 说 时 都 喜欢 本 地 阅读 , 换 句 话说 就 是 把 小 说 下 载 到 手机 或 
者 其 他 移动 设备 上 阅读 ,这 样 不 仅 不 受 网 络 限制 ,还 能 够 使 用 阅读 APP 调整 出 自己 
喜欢 的 显示 风格 。 但 遗憾 的 是 ,各 大 网 站 很 少 会 提供 整 部 小 说 的 下 载 功能 ,只 有 部 分 
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网 站 会 给 VIP 会 员 提 供 下 载 多 个 章节 内 容 的 功能 。 对 于 普通 读者 而 言 ,虽然 VIP 章 
节 需 要 购买 阅读 ,但 是 至 少 还 是 希望 能 够 把 大 量 的 免费 章节 一 口气 看 完 的 。 用 户 完 
全 可 以 使 用 疏 虫 程序 来 帮助 自己 把 一 个 小 说 的 所 有 免费 章节 下 载 到 TXT 文件 中 ,以 
方便 在 其 他 设备 上 阅读 (这 里 也 要 提示 大 家 支持 正版 ,远离 盗版 ,提高 知识 产权 意识 ) 

以 逐 浪 小 说 网 (http://www. zhulang. com/) 为 例 ,从 排行 榜 中 选取 一 个 比较 流 
行 的 小 说 (或 者 是 读者 感 兴趣 的 ) 进 行 分 析 , 首 先是 小 说 的 主页 ,其 中 包括 了 各 种 各 样 
的 信息 (例如 小 说 简介 、 最 新 章节 、 读 者 评论 等 ), 其 次 是 一 个 章节 列表 页 面 ( 有 的 网 站 
也 称 为 “最 新 章节 ”页 面 ), 而 小 说 的 每 一 章 有 着 单独 的 页 面 ( 见 图 10-1)。 很 显然 ,如 
果 用 户 能 够 利用 章节 列表 页 面 来 采集 所 有 章节 的 URL 地 址 ,那么 我 们 只 要 用 程序 分 
别 抓 取 这 些 章节 的 内 容 , 并 将 内 容 写 入 本 地 TXT 文件 , 即 可 完成 小 说 抓 取 。 
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“难怪 他 成 绩 一 落 千丈 ， 据 说 他 向 女生 表白 还 被 拒绝 ， 真 是 太 可 怜 了 。” 
" 哆 ， 有 什么 好 同情 的 ， 他 这 是 活该 ， 谁 让 他 以 前 喜欢 欺负 我 们 ， 现 在 死 了 干净 ， 少 个 袖 害 。” 


泰山 刚 人 恢复 了 一 点 意识 ， 就 听 到 周围 不 少 人 在 议论 着 ， 而 且 隐 约 还 听 到 有 人 念 自己 的 名 字 。 


被 家 族 抛弃 ? 父母 失 路 ? 向 女生 表白 被 拒 ? 自杀 ? 


图 10-1 逐 浪 小 说 网 的 小 说 章节 页 面 

在 查看 章节 页 面 之 后 ,用 户 十 分 遗憾 地 发 现 , 小 说 章节 内 容 使 用 JS 加 载 ,并 且 整 
个 页 面 使 用 了 大 量 的 CSS 和 JS 所 生成 的 效果 ,这 给 用 户 的 抓 取 增加 了 一 点 难度 。 使 
用 requests 或 者 urllib 库 直接 请 求 章 节 页 面 的 URL 是 不 现实 的 ,但 用 户 可 以 用 
Selenium 来 轻松 搞定 这 个 问题 ,对 于 一 个 规模 不 大 的 任务 而 言 ,在 性 能 和 时 间 上 的 代 
价 还 是 可 以 接受 的 

接 下 来 分 析 一 下 如 何 定位 正文 元 素 。 使 用 开发 者 模式 查看 元 素 ( 见 图 10-20 ,用 
户 发 现 可 以 使 用 read-content 这 个 ID 的 值 定 位 到 正文 。 不 过 class 的 值 也 是 read- 
content ,在 理论 上 似乎 可 以 使 用 class 名 定位 ,但 Selenium 目前 还 不 支持 复合 类 名 的 
直接 定位 ,所 以 使 用 class 来 定位 的 想法 只 能 先 作罢 。 
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gd 


v d: 


<I 一 <ITendifj 一 > 

> <head>..</head> 

Y <body class="un-logged"> 
» d 


<! 一 end of nav group — 
<!—end read-tab 一 > 

> <div class=" re 
«!—end read-t 

Y div 


> <div class="textinfo">.</div> 
> <style>.</style> 


> <p>.</p> 


> <p>n</p> 


"S 
htm! bodyun-logged  divéread-main.read-main MET Taratater p 


Elements Console Sources Network Application Performance Memory Security Audits Adblock Plus 


iv id-"StayFocusd-infobar" style="display: none; top: 1442px;">~</div> 


</div> 


iv class-"read-main" id="read-main"> 


-op">.</div> 


content read-content 
<h2> 第 二 章 连续 突破 </h2> 


<p> 
“小 巾 。" 一 道 声音 传 来 ， 只 见 院落 中 多 出 了 一 位 中 年 ， 此 人 身材 修长 ， 气 息 强大 ， 与 林 枫 有 几 分 相似 。</p> 

<p> “父亲 。" 此 人 正 是 林家 家 主 林海 ， 也 是 林 枫 的 父亲 ， 灵 魂 的 融合 让 林 枫 拥有 两 人 的 思想 ， 因 此 这 一 声 父亲 非常 的 自然 ， 林 枫 也 不 觉得 有 什么 

RE. </p> 


«p» ”“ 恩 ， 父 亲 ， 我 已 经 完全 康复 了 。" 林 枫 看 到 林海 激动 的 神色 微微 一 笑 ， 感 觉 非 常温 声 ， 上 一 世 区 区 过 世 后 ， 他 独自 面 对 人 情 冷暖 ， 就 从 未 享 
受过 这 种 温馨 的 感觉 ,</p> 


«p» ”就 在 此 时 ， 林 海 的 身上 突然 散发 出 阵 阵 河 测 的 春意 ， 让 林 枫 感觉 身体 都 冻 僵 了 。</p> 


<p>_</p> 


«p» “小 枫 ， 是 谁 干 的 ?“ 林 海面 色 阴沉 ， 林 枫 被 送 回来 的 时 候 误 意 意 一 息 ， 对 方 是 想 要 林 枫 的 命 ， 而 事实 上 ， 对 方 也 的 确 要 了 那 ' 林 机 “的 命 。 


图 10-2 开发 者 模式 下 的 小 说 章节 内 容 


【提示 】 虽然 Selenium 目前 只 支持 对 简单 类 名 的 定位 ,但 是 用 户 可 以 使 用 CSS 
选择 的 方式 对 复合 类 名 进行 定位 ,有 兴趣 的 读者 可 以 了 解 一 下 Selenium 中 的 find_ 


element_by_css_selector() 方 法 。 


10.1.2 


2j 3 fe dh. 


使 用 Selenium 配合 Chrome 进行 本 次 抓 取 .除了 用 pip 安装 Selenium 之 外 ,首先 
需要 安装 ChromeDriver, 可 访问 以 下 地 址 将 其 下 载 到 本 地 : 


htt 


ps://sites. google. com/a/chromium. org/chromedriver/downloads 


进入 下 载 页 面 后 ( 见 图 10-30 ,根据 自己 系统 的 版 本 进行 下 载 即 可 。 


Index of /2.25/ 
Name Last modified Size ETag 

49 Parent Directory = 

E) chromedriver linux32.zip 2016-10-22 07:32:45 3.04MB 175ac6d5a9d7579b612809434020fd3c 
E chromedriver linux64.zip 2016-10-22 02:16:44 3.00MB 16673c4a4262d0£4c01836bSb3b2b110 
E chromedriver mac64.zip 2016-10-22 06:23:51 4.35MB — 384031f9bb782edce149c0bea89921b6 
E chromedriver win32.zip 2016-10-22 05:25:54 3.36MB — 2727729883ac960c2edd63558£08£601 
图 notes.t«t 2016-10-25 22:38:18 0.01MB 3££9054860925££9e891d3644c£40051 
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B 


之 后 ,使 用 selenium. webdriver. Chrome( path. of. chromedriver) if ^J nf @) & 


Di 


Chrome 浏览 器 对 象 ,其 中 path. of chromedriver 就 是 下 载 的 ChromeDriver 的 路 径 。 


在 脚本 中 ,用 户 可 以 定义 一 个 名 为 NovelSpider 的 疏 虫 类 ,使 用 小 说 的 “全 前 


D 


节 ” 页 面 URL 进行 初始 化 (类 似 于 C++ 中 的 “构造 ”) ,同时 它 还 拥有 一 个 list 属性 ,其 


中 将 会 存放 各 个 章节 的 URL。 类 方法 如 下 。 
* get page urlsO ; 从 全 部 章节 页 面 抓 取 各 个 章节 的 URL. 
* get_novel_name(): 从 全 部 章节 页 面 抓 取 当 前 小 说 的 书 名 。 
。 text_to_txt() ; 将 各 个 章节 中 的 文字 内 容 保存 到 TXT 文件 中 。 
* looping crawlO : 循环 抓 取 。 
思路 梳理 完毕 后 就 可 以 着 手 编写 了 ,最 终 的 息 虫 代码 见 例 10-1. 
【 例 10-1】 NovelSpider. py; 网 络 小 说 抓 取 程序 。 


import selenium. webdriver, time, re 
from selenium. common. exceptions import WebDriverException 


class NovelSpider(): 
def init (self, url): 
self.homepage = url 
self. driver = selenium. webdriver.Chrome(path of chromedriver) 
self. page_list =[] 


def del (self): 
self.driver.quit() 


def get page urls(self): 
homepage 7 self. homepage 
self.driver.get(homepage) 
self. driver. save_screenshot( screenshot. png') 


self. driver. implicitly wait(5) 
elements = self.driver.find elements by tag nanme('a') 


for one in elements: 
page url- one.get attribute( href') 


pattern = "http: V/V book. zhulang\.com\/\d{6}\/\d + V. html" 
if re.match(pattern, page url): 

print(page url) 

self.page list.append(page url) 
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def looping crawl(self): 

homepage 7 self. homepage 

filename = self.get novel name(homepage) + '.txt' 
self.get page urls() 
pages = self.page list 


# print(pages) 

for page in pages: 
self.driver.get(page) 
print('Next page: ') 


self.driver. implicitly wait(3) 
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ee] 


title = self.driver.find element by tag name('h2').text 
res = self.driver.find element by id('read- content ') 


text= Wn' + title + '\n' 

for one in res.find elements by xpath('./p'): 
text += one. text 
text += '\n' 


self. text_to_txt(text, filename) 
time. sleep(1) 
print(page + '\t\t\tis Done! ') 


def get novel name(self, homepage): 


self.driver.get( homepage ) 
self.driver. implicitly wait(2) 


res = self.driver.find element by tag name('strong').find element by xpath('./a') 


if res is not None and len(res.text) > 0: 
return res.text 

else: 
return 'novel' 


def text to txt(self, text, filename): 
if filename[ - 4: ]!= '.txt': 
print('Error, incorrect filename') 
else: 
with open(filename, 'a') as fp: 
fp.write(text) 
fp.write( An') 


if name --' main ': 


hp url input( 输入 小 说 "全 部 章节 "页 面 : ') 


path of chromedriver = 'your path of chrome driver' 


(由 Python Py tge ch 3c 5x 


try: 
spl = NovelSpider(hp url) 
Spl.looping crawl() 
del spl 

except WebDriverException as e: 
print(e.msg) 


—init OI del _0 〇 方法 可 以 视 为 构造 函数 和 析 构 函数 ,分 别 在 对 象 被 创建 和 被 
销毁 时 执行 。 在 _init _O 〇 中 使 用 一 个 URL 字符 串 进行 了 初始 化 ,而 在 __del__O 〇 方法 
中 退出 了 Selenium 浏览 器 。try-except 语句 执行 主体 部 分 并 尝试 捕获 
WebDriverException 异常 (这 也 是 Selenium 运行 时 最 常见 的 异常 类 型 )。 在 lopping_ 
crawl() 方 法 中 则 分 别 调 用 了 上 述 其 他 几 个 方法 。 

driver. save_screenshot() 方 法 是 selenium. webdriver 中 保存 浏览 器 当前 窗口 截 
图 的 方法 。 

driver. implicitly_wait() 方 法 是 Selenium 中 的 隐 式 等 待 , 它 设置 了 一 个 最 长 等 待 
时 间 , 如 果 在 规定 的 时 间 内 网 页 加 载 完 成 , 则 执行 下 一 步 ,否则 一 直 等 到 时 间 截 止 , 然 
后 再 执行 下 一 步 。 

【提示 】 显 式 等 待 会 等 待 一 个 确定 的 条 件 触发 然后 才 进 行 下 一 步 ,可 以 结合 
ExpectedCondition 共同 使 用 ,支持 自 定义 各 种 判定 条 件 。 隐 式 等 待 在 编写 时 只 需要 
一 行 ,所 以 编写 十 分 方便 ,其 作用 范围 是 WebDriver 对 象 实例 的 整个 生命 周期 ,会 让 
一 个 正常 响应 的 应 用 的 测试 变 慢 ,导致 整个 测试 执行 的 时 间 变 长 。 

driver. find_elements_by_tag_name() 是 Selenium 用 来 定位 元 素 的 诸多 方法 之 
一 ,所 有 定位 单个 元 素 的 方法 如 下 。 

* find_element_by_id(): 根据 元 素 的 id 属性 来 定位 ,返回 第 一 个 id 属性 匹配 的 
元 素 ; 如 果 没 有 元 素 匹 配 ,会 抛 出 NoSuchElementException 异常 。 
find_element_by_name(): 根据 元 素 的 name 属性 来 定位 ,返回 第 一 个 name 
属性 匹配 的 元 素 ; 如 果 没 有 元 素 匹 配 , 则 抛 出 NoSuchElementException 
异常 。 
find_element_by_xpath(): 根据 XPath 表达 式 定 位 。 
find_element_by_link_text(): 用 链接 文本 定位 超 链 接 。 这 个 方法 还 有 子 串 
匹配 版 本 find element by partial link textO 。 
find element by tag nameO : 使 用 HTML 标签 名 来 定位 。 
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* find_element_by_class_name(): 使 用 class 定位 。 

* find element by css selectorO : 根据 CSS 选择 器 定位 。 

寻找 多 个 元 素 的 方法 名 只 是 将 “element” 变 为 复数 “elements”, 并 返回 一 个 寻找 
的 结果 (列表 ) ,其 余 和 上 述 方法 一 致 。 在 定位 到 元 素 之 后 ,可 以 使 用 text() 和 get_ 
attribute() 方 法 获取 其 中 的 文本 或 各 个 属性 。 


page url- one.get attribute( 'href') 


这 行 代码 使 用 get_attribute( ) 方 法 来 获取 定位 到 的 各 章节 的 URL 地 址 。 在 以 
上 程序 中 还 使 用 了 reCPython 的 正则 模块 ) 中 的 re. match() 方 法 ,根据 正则 表达 式 来 
匹配 page_url. JBM: 


“http: \/\/book\. zhulang\. com\/\d{6}\/\d + V. html’ 


这 样 的 正则 表达 式 所 匹配 的 是 下 面 这 样 的 一 种 字符 串 : 


http://book. zhulang. com/A/B/. html 


其 中 ,A 部 分 必须 是 6 个 数字 ,B 部 分 必须 是 一 个 以 上 数字 。 这 也 正好 是 小 说 各 个 章 
节 页 面 的 URL 形式 ,只 有 符合 这 个 形式 的 URL 链接 才 会 被 加 入 到 page_list 中 。 

re 模块 的 常用 函数 如 下 。 

e compile(): 编译 正则 表达 式 , 生 成 一 个 Pattern 对 象 。 之 后 就 可 以 利用 
Pattern 的 一 系列 方法 对 文本 进行 匹配 查找 (当然 ,匹配 /查找 函数 也 支持 直 
接 将 Pattern 表达 式 作为 参数 ) 。 
match(): 用 于 查找 字符 串 的 头 部 (也 可 以 指定 起 始 位 置 ) , 它 是 一 次 匹配 ,只 
要 找到 了 一 个 匹配 的 结果 就 返回 。 
searchO ; 用 于 查找 字符 串 的 任何 位 置 , 只 要 找到 了 一 个 匹配 的 结果 就 返回 。 
findallO : 以 列表 形式 返回 能 匹配 的 全 部 子 串 ,如 果 没 有 匹配 , 则 返回 一 个 空 
列表 。 
finditerO : 搜索 整个 字符 串 ,获得 所 有 匹配 的 结果 。 与 findall() 的 一 大 区 别 
是 , 它 返 回 一 个 顺序 访问 每 一 个 匹配 结果 (Match 对 象 ) 的 迭代 器 。 
splitO : 按照 能 够 匹配 的 子 串 将 字符 串 分 割 后 返回 一 个 结果 列表 。 
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* subO: 用 于 替换 ,将 母 串 中 被 匹配 的 部 分 使 用 特定 的 字符 串 蔡 换 掉 。 

【提示 】 正则 表达 式 在 计算 机 领域 中 应 用 广泛 ,读者 有 必要 好 好 了 解 一 下 它 的 
语法 ,可 参考 本 书 附录 A 中 的 相关 内 容 。 

在 looping_crawl() 方 法 中 分 别 使 用 了 get_novel_name() 获 取 书 名 并 转化 为 
TXT 文件 名 ,get_page_urls() 获 取 章 节 页 面 的 列表 ,text_to_txt() 保 存 抓 取 到 的 正文 
内 容 。 在 这 之 间 还 大 量 使 用 了 各 类 元 素 定 位 方法 (如 上 文 所 述 )。 


10.1.3 运行 并 查看 TXT 文件 


这 里 选取 一 个 小 说 一 一 逐 浪 小 说 网 的 (绝世 神通 》( 页 面 网 址 为 “http://book. 
zhulang. com/344033/”) ,运行 脚本 并 输入 其 章节 列表 页 面 的 URL, 可 以 看 到 控制 台 
中 程序 成 功 运行 时 的 输出 ,如 图 10-4 所 示 。 


Next page: 
http://book. zhulang. com/344033/298426 . html is Done! 
Next page: 
http://book.zhulang.con/344033/218044. html is Done! 
Next page: 
http: //book. zhulang. com/344033/219747. html is Done! 
Next page: 
http:, k.zhulang. 2: 7.html is Done! 
Next page: 
http://book.zhulang.com/344033/221904. html is Done! 
Next page: 
http://book.zhulang.com/344033/221907. html is Done! 
Next page: 
http:, 'hulang. 2; „html is Done! 
Next page: 
http://book. zhulang.com/344033/223893.html is Done! 
Next page: 
http://book.zhulang.con/344033/225854 . html is Done! 
Next page: 
http://book. zhulang. com/344033/225856 html is Done! 
Next page: 


图 10-4 /NBUfe rh i jii th 

抓 取 结束 后 ,用 户 可 以 发 现 目录 下 多 出 一 个 名 为 “screenshot. png" f] [E JT CH 
图 10-5) 和 一 个 “绝世 神通 . txt” 文 件 ( 见 图 10-6) ,小 说 《绝世 神通 》 的 正文 内 容 ( 按 章 
节 顺 序 ) 已 经 成 功 保存 。 

程序 圆满 地 完成 了 下 载 小 说 的 任务 ,缺点 是 耗 时 有 些 久 ,而 且 Chrome 占用 了 大 
量 的 硬件 资源 。 对 于 动态 网 页 ,其 实 不 一 定 必须 使 用 浏览 器 模拟 的 方式 来 抓 取 , 在 
10. 2 节 将 尝试 进行 网 络 数据 分 析 并 直接 从 后 台 请 求 数据 ,不 再 需要 Selenium 作为 
“中 介 ”。 另 外 ,对 于 获得 的 屏幕 截图 而 言 , 图 片 是 窗口 截图 ,而 不 是 整个 页 面 的 截图 
(长 图 ) ,为 了 获得 整个 页 面 的 截图 或 者 部 分 页 面 元 素 的 截图 ,用 户 需 要 使 用 其 他 方 
法 ,例如 注入 JS 脚本 等 ,这 里 就 不 再 展开 介绍 了 。 
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ERR. o —w Ba | ah | x8 | BR- 


sa 
ih 1 LA 请 输入 您 可 欢 的 小 说 名 称 Q 
www.zhulang.com^| SERE SBBA ASH» tex Eomsuüx 


排行 榜 


BE: TOM BONE SARR ERTL MENA 科幻 小 说 ANAN RAM BARE 


当前 位 置 ， 玄幻 > 东方 去 纪 > teen 


上 作品 相关 介绍 - 


说 下 上 架 的 事情 ， 非 党 重要! 


IEX = 
Ex 

第 一 章 smi m-m xum mI-GRMRAS EGLES TYI 

HER PERA 第 六 章 eid mtm manoma WAS MZA 

RAS DR LL NI 第 十 一 章 年度 大 比 第 十 二 章 MBA SEXT? 


图 10-5 逐 浪 小 说 网 的 屏幕 截图 
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灵 器 亦 也 是 下 中 上 极品 之 分 ， 极 品 之 上 还 有 王 品 ， 跟 武技 功 法 的 等 级 划分 是 一 样 的 。 

| 不 过 下 品 的 灵 器 可 比 下 品 的 武技 要 珍贵 上 不 少 ， 以 至 于 诺 大 的 秦 家 都 只 有 一 件 下 品 灵 器 ， 就 是 他 父亲 秦 占 天 的 剑 , 

| 下 品 之 下 ， 都 称 为 凡 品 ， 皆 是 不 入 流 之 物 。 

| 武器 的 作用 ， 在 战斗 之 中 还 是 很 能 够 体现 出 来 的 。 就 比如 刚才 ， 如 果 泰 医 手 中 的 是 一 柄 下 品 的 灵 器 剑 ， 那 刚才 一 剑 不 说 百 分 
| 百 能 够 将 地 头 剑 齿 席 杀 死 的 话 ， 至 少 也 能 让 它 基本 失去 反抗 能 力 。 再 补 一 剑 ， 自 然 就 可 以 杀 死 了 。 而 不 是 ， 还 会 让 剑齿虎 逃 
| 走 的 份 。 

白 剑 求 道 :“ 送 给 你 吧 ， 一 件 对 我 无 用 之 物 ， 却 能 赚 你 一 份 人 情 ， 哈 哈 。 一 件 好 的 兵器 相助 ， 会 让 你 更 加 的 得 心 应 手 ， 尤 其 
| 是 对 付 荒 兽 。 不 过 一 你 的 剑 ， 我 总 感觉 有 些 特殊 吧 ? " 

"特殊 ?“ 秦 蒲 眉 头 微 一 锌 ， 其 实 他 也 感觉 有 些 特殊 ， 因 为 上 次 跟 严 公子 一 战 ， 他 明显 就 有 感觉 从 自己 的 剑 中 有 一 股 诡异 的 力 
| 量 涌 了 出 来 。 

只 是 ， 他 后 来 也 好 好 的 研究 了 一 下 ， 实 在 是 看 不 出 来 有 什么 特殊 之 处 的 。 

| 这 剑 跟 了 他 这 么 多 年 了 ， 也 就 是 那 次 有 些 诡异 。 

"或许 吧 ， 不 过 我 也 不 知道 。 这 剑 是 我 母亲 留 给 我 的 遗物 ， 不 对 付 荒 兽 的 话 ， 我 还 是 习惯 用 这 剑 的 。 白 哥 ， 你 的 剑 我 就 先 收 
| 下 了 ， 欠 你 的 几 分 人 情 ， 以 后 再 还 你 。“ 秦 萧 道 。 

白 剑 求 一 笑 :“ 我 就 跟 你 开 个 玩笑 ， 别 当真 。 好 了 ， 我 们 走 吧 。 再 往 里 面 ， 就 危险 了 ， 你 可 得 小 心 一 点 。 甚 至 有 可 有 ， 连 我 
| 都 难 照 顾 到 你 。” 


10-6 小 说 的 部 分 内 容 


10.2 ”下载 购物 评论 


现今 ,在 线 购物 平台 已 经 成 为 人 们 生活 中 不 可 或 缺 的 一 部 分 ,从 淘宝 、 天 猫 到 京 
东 、 当 当 , 很 难 想象 离开 了 这 些 网 购 平台 人 们 的 生活 会 缺失 多 少 便利 。 无 论 是 对 于 普 
通 消费 者 还 是 商家 而 言 , 商 品评 论 都 是 十 分 有 用 的 信息 ,消费 者 可 以 从 他 人 的 评论 衡 
量 商 品 的 质量 ,商家 也 可 以 根据 评论 调整 生产 与 商业 策略 。 本 节 以 著名 的 网 购 平台 
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“京东 ”(jd. com) 为 例 ,看 看 如 何 抓 取 特定 商品 的 评论 信息 。 
10.2.1 查看 网 络 数据 


首先 进入 京东 , 单 击 并 进入 一 个 感 兴趣 的 商品 页 面 。 这 里 以 书籍 解忧 杂货 店 》 
的 页 面 为 例 , 在 浏览 器 中 查看 ( 见 图 10-7)。 
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图 10-7 京东 商品 页 面 

之 后 单 击 “ 商 品评 价 ”, 可 以 查看 以 一 页 一 页 的 文字 形式 所 呈现 的 评价 内 容 。 既 
然 想 编写 程序 把 这 些 评 价 内 容 抓 取 下 来 ,那么 就 应 该 考虑 这 次 使 用 什么 手段 和 工具 。 
在 之 前 的 小 说 内 容 抓 取 中 使 用 了 Selenium 浏览 器 自动 化 的 方式 ,通过 加 载 每 一 章节 
对 应 页 面 的 内 容 来 抓 取 , 对 于 商品 评论 而 言 ,这 个 策略 看 起 来 应 该 是 没有 问题 的 ,上 毕 
FE Selenium 的 特色 就 是 可 以 执行 对 页 面 的 交互 。 不 过 ,这 次 不 妨 从 更 深层 的 角度 思 
考 , 仅 以 简单 的 requests 来 搞定 这 个 任务 。 

一 般 来 说 ,在 网 购 平台 的 页 面 中 会 大 量 使 用 AJAX, 因 为 这 样 就 可 以 实现 网 页 数 
据 的 局 部 刷新 ,避免 了 加 载 整个 页 面 的 负担 ,对 于 商品 评论 这 种 变动 频繁 .时 常 刷新 
的 内 容 而 言 尤其 如 此 。 用 户 可 以 尝试 直接 使 用 requests 请 求 页 面 并 使 用 lxml 的 
XPath 定位 来 抓 取 一 条 评论 。 

首先 使 用 Chrome 的 开发 者 模式 检查 元 素 并 获得 其 XPath, 见 图 10-8。 

然后 用 几 行 代码 检查 一 下 是 否 能 直接 用 requests 请 求 页 面 并 获得 这 条 评论 , 代 
码 如 下 (不 要 忘 了 在 . py 文件 开头 使 用 import 导入 相关 的 包 ): 
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图 10-8 Chrome 检查 评论 内 容 


if name . ..main . 
xpath raw = '// * [@id= "comment - 0" ]/div[1]/div[2]/div/div[2]/div[1]/text()[1]' 
url = input(" 输 入 商品 链接 : ") 

response = requests. get(url) 

htl = 1xnl. html. fromstring(response. text) 


print(htl.xpath(xpath raw)) 


输入 商品 链接 “https://item. jd. com/11452840. html # comment” 后 ,果不其然 ， 


获得 的 结果 是 “[]”。 换 句 话说 ,这 个 简单 粗暴 的 策略 并 不 能 抓 取 到 评论 内 容 。 为 保 
险 起 见 ,观察 一 下 requests 请 求 到 的 页 面 内 容 , 在 代码 最 后 加 上 两 行 : 


with open('jd item.html', 'w') as fp: 
fp. write(response. text) 


这 样 就 可 以 把 response 的 text 内 容 直 接 写 入 jd. item. html 文件 ,再 次 运行 后 ， 


使 用 编辑 器 打开 文件 ,找到 商品 评论 区 域 ,只 看 到 了 几 个 大 大 的 “加 载 中 ”: 


<div id= "comment — 0" class= "mc ui- switchable— panel comments - table"> 


« div class = "loading- stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 
</div> 


<div id= "comment - 1" class = "mc none ui - switchable - panel comments - table" 
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<div class = "loading- stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 

</div> 

<div id= "comment - 2" class = "mc none ui- switchable - panel comments — table" 
<div class = "loading- stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 

</div> 

<div id= "comment - 3" class = "mc none ui- switchable - panel comments — table"> 
<div class = "loading - stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 

</div> 

<div id= "comment - 4" class = "mc none ui - switchable - panel comments — table"> 
<div class = "loading- stylel"><b></b> 加 载 中 ,请 稍 候 ...</div> 

</div> 


看 来 商品 的 评论 属于 动态 内 容 , 直 接 请 求 HTML 页 面 是 抓 取 不 到 的 ,用 户 只 能 
另 寻 他 法 。 之 前 提 到 可 以 使 用 Chrome 的 Network 工具 来 查看 与 网 站 的 数据 交互 ， 
所 谓 的 数据 交互 ,当然 也 包括 AJAX 内 容 。 

首先 单 击 页 面 中 的 “商品 评价 ”按钮 ,之 后 打开 Network 工具 。 鉴 于 用 户 并 不 关 
心 JS 数据 之 外 的 其 他 繁杂 信息 ,为 了 保持 简洁 ,可 以 使 用 过 滤器 工具 并 选中 JS 选 
项 。 不 过 ,可 能 会 有 读者 发 现 这 时 并 没有 在 显示 结果 中 看 到 对 应 的 信息 条 目 , 这 种 情 
况 可 能 是 因为 在 Network 工具 开始 记录 信息 之 前 评论 数据 就 已 经 加 载 完毕 。 碰 到 这 
种 情况 ,直接 单 击 “下 一 页 ”查看 第 2 页 的 商品 评论 即 可 ,这 时 可 以 直观 地 看 到 有 一 条 
JS 数据 加 载 信 息 被 展示 出 来 ,如 图 10-9 所 示 o 
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1 / 84 requests | 7.5 KB /9.1 KB transferred. 


10-9 Network 工具 查看 JS 请 求 信息 
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单 击 这 条 记录 ,在 它 的 Headers 选项 卡 中 便 是 有 关 其 请 求 的 具体 信息 ,用 户 可 以 
看 到 它 请 求 的 URL Jy https://sclub. jd. com/comment/productPageComments. 
action? productId = 11452840&score = 0&sortType = 3&-page = 1&pageSize = 
108-isShadowSku=08&-callback= fetch] SON. comment98vv110378 ,状态 为 200( 即 请 
求 成 功 , 没 有 任何 问题 ) 。 在 右 侧 的 Preview 选项 卡 中 可 以 预览 其 中 所 包含 的 评论 信 
息 。 不 妨 分 析 一 下 这 个 URL 地 址 ,显然 ,“?” 之 后 的 内 容 都 是 参数 ,访问 这 个 API 会 
使 得 对 应 的 后 台 函 数 返 回 相 关 的 JSON 数据 。 其 中 ,productId 的 值 正好 就 是 商品 页 
面 URL 中 的 编号 ,可 见 这 是 一 个 确定 商品 的 ID 值 。 如 果 将 其 中 一 个 参数 进行 修改 ， 
例如 将 page 改 为 5, 并 在 浏览 器 中 访问 ,得 到 了 不 一 样 的 信息 ( 见 图 10-100 ,说 明 大 家 
的 猜测 是 正确 的 ,在 接 下 来 的 息 虫 编写 中 只 需要 更 改 对 应 的 参数 即 可 。 
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图 10-10 更 改 参 数 后 访问 URL 的 效果 


10.2.2 a te 


EFA E ME ZT WA F. py 脚本 的 结构 ,为 方便 起 见 ,使 用 一 个 类 
作为 商品 评论 页 面 的 抽象 表示 ,其 属性 应 该 包括 商品 页 面 的 链接 和 抓 取 到 的 所 有 评 
论文 本 (作为 一 个 字符 串 )。 为 了 输出 和 调试 方便 ,还 应 该 加 入 日 志 功 能 ,编写 类 方法 
get_comment_from_item_url() 作 为 访问 数据 并 抓 取 的 主体 ,同时 还 应 该 有 一 个 类 方 
法 用 来 处 理 抓 取 到 的 数据 ,不 如 称 之 为 content_process()( 意 为 “内 容 处 理 ”)。 还 可 
以 将 评论 信息 中 的 几 项 关键 内 容 ( 例 如 评论 文字 日 期 时 间 、 用 户 名 、 用 户 客 户 端 等 ) 
保存 到 CSV 文件 中 以 备 日 后 查看 和 使 用 。 出 于 以 上 考虑 , 怜 虫 类 可 以 编写 为 例 10-2 
中 的 代码 。 
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【 例 10-2] JDComment KY ^fEJE . 


class JDComment(): 
_itemurl="' 


def init (self, url): 
self. itemurl- url 
logging. basicConfig( 
level = logging. INFO, 
) 


self.content sentences = '' 
def get comment from item url(self): 


comment json url = 'https://sclub. jd. com/comment/productPageComments. action’ 


p dataz { 
'callback': 'fetchJSON comment98vv110378', 
'score': 0, 
'sortType': 3, 
‘page’: 0, 
'pageSize': 10, 
'isShadowSku': 0, 


p data[ 'productId'] = self. item id extracter from url(self. itemurl) 
ses = requests. session() 


while True: 

response = ses.get(comment json url, params = p data) 
logging.info('- ' * 10 + 'Next page!' + '- ' * 10) 
if response. ok: 

r text = response. text 

r text-r text[r text.find('((') + 1:) 

r_text = r text[:r text.find('); ]) 

jsl = json.loads(r text) 


for comment in js1[ comments']: 
logging. info('{}\t{}\t{}\t{}'. format (comment [ ‘content '], comment 


[ referenceTime'],comment[ nickname'], comment[ 'userClientShow' ]) ) 


self.content_process(comment) 
self.content sentences += comment[ 'content'] 
else: 
logging. error( Status NOT OK') 
break 
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p_data[ 'page'] += 1 

if p_data[ 'page'] > 50: 
logging. warning( 'We have reached at 50th page') 
break 


def item id extracter from url(self, url): 
item id- 0 
prefix = ‘item. jd. con/ 
index str(url).find(prefix) 
if index!=- 1: 
item id= url[index + len(prefix): url.find('.html')] 


if item_id!= 0: 
return item id 
def content process(self, comment): 
with open( 'jd - comments - res.csv', a') as csvfile: 
writer = csv. writer(csvfile,delimiter = ',') 


writer. writerow([comment[ 'content'], comment [ 'referenceTime'], 
comment [ '‘nickname'], comment [ 'userClientShow']]) 


在 上 面 的 代码 中 使 用 requests. session() 来 保存 会 话 信 息 , 这 样 会 比 单纯 的 
requests. get() 更 接近 一 个 真实 的 浏览 器 。 当 然 , 用 户 还 应 该 定制 User-Agent 信息 ， 
不 过 由 于 人 疏 虫 程序 规模 不 大 ,被 ban( 封 禁 ) 的 可 能 性 很 低 ,所 以 不 妨 先 专注 于 其 他 上 有 具 
体 功 能 。 

logging. basicConfig( 


level = logging. INFO, 
) 


这 几 行 代码 设置 了 日 志 功 能 并 将 级 别 设 为 INFO, 如 果 想 把 日 志 输出 到 文件 而 不 
是 控制 台 , 可 以 在 level 下 面 加 一 行 “filename 一 'app. log'”, 这 样 日 志 就 会 被 保存 到 
“app. log” 这 个 文件 之 中 。 

p_data 是 将 要 在 requests 请 求 中 发 送 的 参数 (params) ,这 正 是 在 之 前 的 URL 分 
析 中 得 到 的 结果 。 以 后 用 户 只 需要 更 改 page 的 值 即 可 ,其 他 参数 保持 不 变 。 


p_data[ 'productId'] = self.item id extracter from url(self. itemurl) 


这 行 代码 为 p_data( 本 身 是 一 个 Python 字典 结构 ) 新 插入 了 一 项 , 键 为 
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‘productId’, f JJ item_id_extracter_from_url() Jr i f 3R [nl fÉ. item_id_extracter_ 
from_url() 方 法 接收 商品 页 面 的 URL( 注 意 ,不 是 请 求 商品 评论 的 URL) 并 抽取 出 其 
中 的 productId, 而 _itemurl( 即 商品 页 面 URL) Æ JDComment 类 的 实例 创建 时 被 
赋值 。 


response = ses.get(comment json url, params = p data) 


这 行 代码 会 向 comment json url 请 求 评论 信息 的 ISON 数据 , 接 下 来 大 家 看 到 
了 一 个 while 循环 , 当 页 码 数 突破 一 个 上 限 ( 这 里 为 50) 时 停止 循环 。 在 循环 中 会 对 
请 求 到 的 fetchJSON 数据 做 一 点 点 处 理 , 将 它 转化 成 可 编码 为 JSON 的 文本 并 使 用 : 


jsl = json.loads(r text) 


这 行 代码 会 创建 一 个 名 为 jsl 的 JSON 对 象 ,然后 用 户 就 可 以 用 类 似 于 字典 结构 
的 操作 来 获取 其 中 的 信息 了 。 在 每 次 for 循环 中 ,不 仅 在 log 中 输出 一 些 信息 ,还 
使 用 


self.content process(comment) 


调用 content. process X iX: X fi Z& comment 信息 进行 操作 ,具体 就 是 将 其 保存 到 
CSV 文件 中 。 


self.content sentences += comment[ 'content'] 


这 样 会 把 每 条 文字 评论 加 入 到 当前 的 content. sentences 中 ,这 个 字符 串 中 存放 了 所 
有 文字 评论 。 不 过 ,在 正式 运行 候 虫 之 前 ,用 户 不 妨 再 多 想 一 步 。 对 于 频繁 的 JSON 
数据 请 求 , 最 好 能 够 保持 一 个 随机 的 时 间 间 隔 ,这样 不 易 被 反 息 虫 机 制 ( 如 果 有 的 话 ) 
ban 掉 , 编 写 一 个 random_sleep() 函数 来 实现 这 一 点 ,每 次 请 求 结束 后 调用 该 函数 。 
另外 ,使 用 页 码 最 大 值 来 中 断 仆 虫 的 做 法 恐怕 还 不 够 合理 ,既然 抓 取 的 评论 信息 中 就 
有 日 期 信息 ,完全 可 以 使 用 一 个 日 期 检查 函数 来 共同 控制 循环 抓 取 的 结束 一 一 当 评 
论 的 日 期 已 经 早 于 设 定 的 日 期 或 者 页 码 已 经 超出 最 大 限制 时 立刻 停止 抓 取 。 在 变量 
content_sentences 中 存放 着 所 有 评论 的 文字 内 容 , 可 以 使 用 简单 的 自然 语言 处 理 技 
术 来 分 析 其 中 的 一 些 信息 , 比 如 抓 取 关 键 词 。 在 实现 这 些 功 能 以 后 ,最 终 的 候 虫 程序 
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就 完成 了 , 见 例 10-3. 
[BI 10-3]. JDComment. py. RAR RI m iE 38 B fe d o 


import requests, json, time, logging, random, csv, lxml.html, jieba.analyse 
from pprint import pprint 
from datetime import datetime 


# 京东 评论 JS 
class JDComnent() : 
_itemurl="' 


def init (self, url, page): 
self. itemurl- url 
self. checkdate - None 
logging. basicConf ig( 
# filename = ‘app. log', 
level = logging. INFO, 
) 
self. content_sentences = '' 
self.max page = page 


def go on check(self, date, page): 
go on7 self.date check(date) and page <= self.max page 


return go on 


def set checkdate(self, date): 
self. checkdate = datetime. strptime(date, '&Y- %m- %d') 


def get comment from item url(self): 


comment json url- 'https://sclub. jd. com/comment/productPageComments. action' 


p_data = { 
‘callback’: 'fetchJSON comment98vv242411', 
'score': 0, 
'sortType': 3, 
'page': 0, 
'pageSize': 10 


p_datal[ 'productId'] = self. item id extracter from url(self. itemurl) 
ses = requests. session() 


go on-7 True 
while go on: 
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response = ses.get(comment json url, params = p data) 
logging.info('- ' * 10 + 'Next page! ' * '- ' * 10) 
if response. ok: 


r text = response. text 

r text=r text[r text.find('((') + 1:] 
r_text = r_text[:r_text. find(');')] 

jsl = json. loads(r_text) 


for comment in js1[ 'comments']: 
go_on = self.go on check(comment[ 'referenceTime'], p data[ page']) 
logging. info( '{}\t{}\t{}\t{}'. format(comment[ 'content'], comment 
[ 'referenceTime'],comment[ 'nickname'], comment[ userClientShow'])) 


self. content_process(comment) 
self.content_sentences += comment[ 'content'] 


else: 
logging. error( 'Status NOT OK') 
break 


p data['page'] += 1 
self.random sleep() # delay 


def item id extracter from url(self, url): 
item id- 0 


prefix = ‘item. jd.com/' 
index = str( url). find( prefix) 
if index!=- 1: 
item id= url[index + len(prefix): url.find('.html')] 


if item id != 0: 
return item id 


def date check(self, date here): 
if self. checkdate is None: 
logging. warning( 'You have not set the checkdate') 
return True 
else: 
dt tocheck = datetime.strptime(date here, '&Y- &m- %d %H: %M: $S') 
if dt tocheck > self. checkdate: 
return True 
else: 
logging. error( Date overflow') 
return False 


def content process(self, comment): 
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with open( 'jd - comments - res.csv', 'a') as csvfile: 
writer = csv.writer(csvfile, delimiter- ', ') 
writer.writerow([comment[ 'content'], comment[ 'referenceTime'], 
comment [ 'nickname'], comment [ 'userClientShow']]) 


def random_sleep(self, gap =1.0): 
# gap=1.0 
bias = random, randint( - 20, 20) 
gap += float(bias) / 100 
time. sleep( gap) 


def get keywords(self): 
content = self.content sentences 
kws = jieba. analyse. extract_tags(content, topK = 20) 
return kws 


url = input(" 输 入 商品 链接 : ") 

date_str = input(" 输 入 限定 日 期 : ") 

page num = int(input(" 输 入 最 大 疏 取 页 数 : ") ) 
jdl = JDComment(url, page num) 

jdi.set checkdate(date str) 

print(jdi.get comment from item url()) 
print(jdl.get keywords()) 


TE TAME d ge y rp fii HH BS BEER AP requests, json, time, random, csv, Ixml. html, 
jieba. analyse.logging.datetime 等 。 后 面 将 会 对 其 中 的 一 些 模块 做 简要 说 明 。 接 下 
来 先 运 行 仆 虫 试 一 试 ,打开 另外 一 个 商品 页 面 来 测试 仆 虫 的 可 用 性 ,URL 为 “http:// 
item. jd. com/1027746845. html" (这 是 书籍 《白夜 行 ) 的 页 面 ), 运 行 仆 虫 ,效果 如 
图 10-11 所 示 。 


输入 商品 链接 ; 
PT 2017-01-01 
入 最 大 耻 取 页 数 :10 


«t page! 

LARSEN. GNO. RANNAN, SRAART, RRKHDBANRANE Æ. SEX. RNASNE, AEGNE, MUANTENAA 
2017-05-31 01:14:08 fers KERUK iPhone Pi 

TUE. E*DIROAEE. DRUATE. SEA. WHOS, SEXT, 

2017-02-22 18:23:34 一 “+#d KERUK iPhone EPH 

2017-09-10 09:00:31 Meat RASK iPhone EPE 


INFO: root: ORE d SFR], MINUTIS, (ERDUPISEAKISTUSUMUESIT URN, DTRRRSER TEN, TIEMIETI BISHER. REULRESRUEM 
IJNF0: root :一 次 性 买 了 很 多 ， 和 朋友 一 起 交换 来 看 ， 之 前 也 在 京东 上 买 过 书 ， 一 般 没什么 问题 ， 蔬 也 是 正版 ， 就 是 这 次 有 一 本 书 的 膜 是 散 开 的 ， 不 过 因为 只 有 一 本 书 也 没什么 问题 ， 
INF0: root :那么 多 书 ， 感 觉得 看 一 段 儿 了 ， 书 都 很 好 ， 就 是 快递 包装 真 的 是 5tdquo; 不堪 入 目 5rdquo; 啊 2017-06-03 10:31:35 Zee i 来自 京东 Android 客 户 鲜 
INFO: root: 一 一 一 一 一 Next page! 
INF0: root: PRIF, RRR, ORF, RARA, WBE 2017-07-05 18:43:05 cD — 来 自 京东 Android 客 户 铺 
INF0: root :正版 ， 书 外 观 完好 ， 先 放 着 有 时 间 慢 慢 来 读 。 。 2017-04-04 23:30:37 jes 来 自 京东 Android 客 户 湛 
INF0: root :这 是 我 第 一 次 在 文 轩 网 买书 ， 品 质 不 错 ， 但 包装 上 有 些 琵 间 以 至 于 书 有 一 点 点 的 损坏 。 建议: 包装 时 在 书 的 四 个 角 上 妆 点 东西 ， 还 有 就 是 多 缠 几 图 胶 党 2017-06-25 1| 
INFO: root :很 期 特 的 一 本 书 ! 活动 时 买 的 ， 价 格 优惠 ， 一 下 子 买 了 十 多 本 ， 每 本 书 都 有 薄 展 包 看 ， 都 是 正版 ， 非 党 满意 ! 够 看 一 闭 子 的 了 ， 还 会 级 组 来 买 的 ! | — 2017-04-23 2| 
INF0: root :就 是 这 样 的 一 个 轨 包 装 ， 外 面 连 个 盒子 都 没有 ， 看 四 个 角 直 接 变形 ， 省 事 ， 不 想 退 换 。 2017-05-31 23:43:08 deren RARR iPhone P 

: 以 可 以 ， 我 党 得 我 双 十 一 之 前 都 不 会 再 买书 了 。 包 装 完好 ， 价 格 划算 ， 快 递 态度 好 2017-05-31 00:58:56 sexe RARRANdroidE M 


TNF0:root: 在 这 买 了 好 几 次 了 ， 每 次 都 很 满意。 物流 快 ， 书 质量 很 好 。 没 有 详细 了 解 蔬 的 内 容 ， 看 着 封面 的 感觉 买 的 。 则 开始 看 ， 是 推理 小 说 ， 前 面 的 文字 描述 还 是 有 想 要 看 下 去 他 


图 10-11 运行 JDComment fé 
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“ERROR: root: Date overflow” ff SX B t F H # B HJER K E T > tea E 
的 输出 中 用 户 可 以 看 到 评论 关键 词 信息 如 下 : 


[ 京东 '，' 正 版 '，' 不 错 '，' 好 评 '，' 快 递 '，' 本 书 '，' 包 装 '，' 超 快 ，' 东 野 '，' 速 度 '，' 质 量 '，' 价 钱 v 
Di, GH, BK, AK, WE, GH, WR, RE] 


Et, Æ ME E fE RO eB EJ “jd-comments-res. csv” X ff. iH AA JE iR 3s íT 
成 功 。 
10.2.3 数据 下 载 结果 与 怜 虫 分 析 


使 用 软件 打开 CSV 文件 ,可 以 看 到 抓 取 到 的 所 有 评论 及 相关 信息 ( 见 图 10-12)， 
如 果 以 后 还 需要 对 这 些 内 容 进 行进 一 步 的 分 析 , 就 不 需要 再 运行 仆 虫 了 。 当 然 , 对 于 
大 规模 的 数据 分 析 要 求 而 言 ,保存 结果 到 数据 库 中 可 能 是 更 好 的 选择 。 


2 CONOR TOSS, TIER, KREMER [2017-05-97 01.1408 a= RPE 
2 CRM, OTM, ATM, ARE, ROMAE. KATH, UURRORTUN. KAIMOREE, ORERTH, SEIN. BHORB, 2017-0620 1856 20 Duo Am HANOARM 
i SON, KERRAN AED. Uo. PERO, SAAME on 
5 RTM! EFIE LUNAR! | 2017-094 SEAR RIPON 
65 ART, MERGER, HALL! MA [206-1227 masas ei md 
7. MEBER, TIN, insane |2017-02-20 0.3518 ge RARAN 
D 


(ORDA: STANT, SEER ACCME, HBUPINDEWREREENTENSN. MTRKESIIETIME TIUNTHRNNENMER 20110005 110727 WA AAR 
° -ARETAS RRX-ESRRN. 2ZRÉGRKLEUS, ORLA, PARES, MALAN—AHOMAEAH, TURSRR—EAS 2017-01-05 215123 三。 ERAN 
10 NASA, SHOE-RILT, SERI. NUIRNERAIAAqu MA Hiróquo. nr 


7^ AM, NIRMA, LN, NUR, MAN. E no 
COO 正版 ， 书 外 现 守 好 ， 先 放 着 有 时 间 民情 来 谈 ， | 2017-04-08 282037 ro 来 自 束 东 Androld 宫 户 | 
7j REHH-XCTHRET. RET. GBH-RENRUETSR-AADNT. MU: BRHESERTAHEARH. GUHRSANUMRE 20170025110159 Hio PORTU 

14 。 WONOEN! (ROME. ORB, —TFRTTSE, SÁURERBE. ERZE. ORAR UENIT. ZAMERKA! 20170173712725 jey —— AOSSAsodEP. 
15 — NUHSME-TRBN, HTRTESN. NOTAENTE, #8, FERA. | 2017-05-31 224308. ^w n 
70 MMA, HARM +—2 TAM T. BRE. ANN, WEBM [2017-05-91 005856 jeu o sims tro 
17 ERETHURT, MAURAS. TOU, HAMA. NWIETIEUSAG, REHEISETCAS. ME, NUI KIUUSCEHOERHEN 2016-12-25 04748. [0n ELA iPhone KP 

O5 As HO RENEE REO PASPNNE | 20v7-08-12 232827 re ET 

7) RRMA RAMOS RENT [2017.03.08 104701 at 

20  ISIUHEAUS, . VANEMAT, OFAN NOE 1084. ]sorrcoe-n 1801.17 ie 

T0 &NIGNRODETEAMEQ! NUS. AF—M, RHHIENTT-UESS, NETONTENGS. MNE, ARFERAN~ 

i? SAMO. MRS. 质量 还 可 以 ， 到 供需 要 两 三 天 。 DAR, GK. 


ABRPHone P 
ARRANGE 
Í ME RELRERP Hone 
| 2017-01-25 18.2835 Met REURUR Phone 


图 10-12 京东 商品 评论 CSV 文件 的 内 容 


在 例 10-3 的 疏 虫 程序 中 使 用 了 json 库 来 操作 JSON 数据 ,json FFE Python A 
带 的 模块 ,这 个 模块 为 JSON 数据 的 编码 和 解码 提供 了 十 分 方便 的 解决 策略 ,其 中 最 
重要 的 两 个 函数 是 json. dumps() 和 json. loads()。json. dumps() 函 数 可 以 把 一 个 
Python 字典 数据 结构 转换 为 JSON; json. loads() 则 会 将 一 个 JSON 编码 的 字符 串 转 
换 回 Python 数据 结构 ,在 上 述 的 仆 虫 代码 中 就 使 用 了 json. loadsO 。 

GBA) json 模块 中 的 dumps 与 dump、load 5 loads 非常 容易 混淆 ,用 一 句 话 
来 说 ,函数 名 里 的 “s? 代 表 的 不 是 单数 第 三 人 称 动词 形式 ,而 是 “string”。 因 此 虽然 都 
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是 “解码 ”,load 用 于 解码 JSON 文件 流 ,而 loads 用 于 解码 JSON F4 #. dumps 和 
dump 的 关系 同 理 。 

此 外 还 使 用 了 csv 模块 来 存储 数据 ( 写 入 CSV) ,在 Python 中 csv 模块 可 以 胜任 
绝 大 部 分 CSV 相关 操作 。 为 了 写 入 CSV 数据 ,首先 创建 一 个 writer 对 象 ,writerow() 方 
法 接收 一 个 列表 作为 参数 并 逐个 写 入 列 中 (一 行 数据 )。 类 似 地 , writerows() 方 法 则 
会 写 人 多 行 。 下 面 是 一 个 例子 : 


import csv 


headers = ['E& ', ESI, ' 学 号 专业 '] 

rows =[(' 王 小 明 '，' 男 '，'10007'，' 计 算 机 科学 与 技术 ')， 
(RNB, Xe’, 10008', MBAS’), 
] 


with open( 'stu_info. csv’, 'w') as f: 
f_csv = csv. writer(f) 
f csv. writerow(headers) 
f csv. writerows(rows) 


之 后 就 可 以 看 到 stu. info. csv 文件 中 被 写 入 的 信息 了 。 使 用 csv 读 取 的 过 程 
类 似 : 
with open('stu info.csv') as f: 
f csv = csv. reader(f) 


for row in f csv: 
print(row) 


运行 上 面 的 代码 后 就 能 在 终端 /控制 台 看 到 被 打印 出 的 CSV 内 容 信息 。 

在 get_keywords() 函 数 中 还 使 用 了 jieba 中 文 分 词 来 分 析 评 论文 本 中 的 关键 词 ， 
jieba. analyse. extract_tags() 的 使 用 方法 是 jieba. analyse. extract_tags (sentence, 
topK —20, withWeight— False. allowPOS— O0 ,其 中 各 参数 的 意义 分 别 如 下 。 
sentence: 待 提取 的 文本 。 
topK: 返回 几 个 TF/IDF 权重 最 大 的 关键 词 ,默认 值 为 20。 
withWeight: 是 否 一 并 返回 关键 词 权 重 值 ,默认 值 为 False。 
allowPOS: 仅 包括 指定 词性 的 词 ,默认 值 为 空 , 即 不 筛选 。 

该 函数 使 用 TF/IDF 方法 来 确定 关键 词 ,所谓 的 TF/IDF 方法 ,主要 思路 是 认为 
字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ,但 同时 会 随 着 它 在 语料库 中 
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出 现 的 频率 成 反比 下 降 。 也 就 是 说 ,如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频率 高 ， 
并 且 在 其 他 文章 中 很 少 出 现 , 则 认为 此 词 或 者 短语 具有 很 好 的 类 别 区 分 能 力 , 适 合用 
来 分 类 ,也 就 可 以 作为 文本 的 关键 词 。 

最 后 ,在 检查 日 期 时 (和 初始 化 限定 日 期 时 ) 使 用 了 datetime. strptime() ,可 以 将 
时 间 字 符 串 根据 指定 的 格式 化 符 转 换 成 时 间 对 象 。 运 行 下 面 的 代码 就 可 以 看 到 : 


import datetime 

dt1 = datetime. datetime. strptime('2017- 01 - 01','%Y- %m- &d') 
print(dt1) 

print (type(dt1) ) 


其 输出 结果 为 : 


2017 - 01 - 01 00:00:00 
<class 'datetime.datetime' 


DET] 上 述 代码 中 的 “%Y-%m-%d” 为 字符 囊 格 式 ,strptime() 函 数 使 用 C 语 
言 库 实现 ,格式 信息 有 严格 规定 , 见 “http://pubs. opengroup. org/onlinepubs/ 
009695399/functions/strptime. html”。 另 外 ,作为 strptime() 函 数 的 “ 另 一 面 ”, 还 存 
在 一 个 strftime() 函 数 , 它 的 功能 是 strptime() 的 反面 ,即将 一 个 日 期 (时 间 ) 对象 格 
式 化 为 一 个 字符 串 。 


10.3 本章 小 结 


本 章 使 用 了 Selenium 与 ChromDriver 的 组 合 来 抓 取 网 络 小 说 ,还 使 用 了 
requests 模块 展示 如 何 分 析 并 获取 购物 网 站 后 台 JSON 数据 ,同时 对 疏 虫 程序 中 用 到 
的 功能 及 其 对 应 的 模块 做 了 一 些 简单 的 讨论 。 本 章 中 出 现 的 Python 库 大 多 都 是 编 
写 疏 虫 时 的 常用 工具 ,在 Python 学 习 中 掌握 这 些 常 用 模块 的 基本 用 法 是 很 有 必 
要 的 。 
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fem: 保存 感 兴趣 的 图 片 


视频 讲解 
疏 虫 程序 的 一 个 重要 任务 是 把 网 站 中 的 某 些 信息 (例如 数据 文本 、` 图 片 等 ) 下 载 
到 本 地 ,保存 到 文件 或 数据 库 里 ,本 章 以 保存 网 站 上 的 图 片 为 例 展 开 介 绍 , 目 标 网 站 
JE Si EIS] Cw ww. douban. com) ,同时 还 会 涉及 网 站 登录 问题 
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11.1.1. 从 需求 出 发 


豆 辨 电影 是 目前 十 分 流行 的 影评 平台 ,很 多 人 都 喜欢 使 用 豆瓣 电影 平台 来 标记 
自己 看 过 的 影视 ,而 且 出 于 各 种 各 样 的 原因 , 豆 辩 也 常常 被 息 虫 编写 者 们 作为 抓 取 的 
目标 (可 能 是 由 于 豆 准 网 站 的 内 容 具 有 和 较 高 的 趣味 性 )。 另 外 ,豆瓣 网 的 大 多 数 页 面 
都 可 以 由 requests 请 求 到 并 通过 XPath 定位 直接 获取 ,这 意味 着 用 户 不 用 考虑 
AJAX 问题 ,从 使 用 Selenium 实现 的 方案 中 获得 解脱 。 

在 本 例 中 从 “我 看 过 的 电影 ”出 发 ,希望 编写 息 虫 来 保存 自己 看 过 的 所 有 电影 
海报 ,存储 到 本 地 文件 夹 中 。 为 了 实现 这 个 功能 ,首先 访问 “看 过 ”页 面 ( 见 图 11-1)， 


B 
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这 个 页 面 的 URL 格式 是 这 样 的 : 


奇异 博士 Doctor Strange / 斯 特 兰 奇 博士 / 史 特 兰 奇 博士 [可 播放 ] 
2016-10-25( 英 国 ) / 2016-11-04( 中 国 大 陆 ) / 2016-11-04( 美 国 ) / 本 尼 迪 克 特 ' 康 伯 巴 奇 / PRAMA/ 
麦 斯 : 米 科 尔 森 / 切 瓦特 - 埃 加 福特 / 瑞 秋 麦 克 亚当 斯 /迈克尔 -斯 图 巴 / 本 尼 迪 克 特 . 王 / 本 杰 明 - 布 拉 特 / 
斯 科 特 . 阿 金 斯 / 莎 拉 - 费 希 恩 / 阿拉 : 萨 菲 /美国 / 斯 科 特 ' 德 瑞 克 森 / 115 分 钟 /奇异 博士 /动作 /科幻 / 
/冒险 EERIE Steve Ditko / 托马斯 : 迪 恩 - 唐 纳 利 Thomas Dean Donnelly /斯 坦 : 李 Stan 
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Fiter 


elenent.style € 
H 


a ing { 
border-vidth:» 0; 
vertical-align: middle; 


a ing { 
border-eióthre Oy 


} 
{ 
max-width: 100%; 


fieldset, img ( 
border: > 8; 


图 11-1 使 用 开发 者 模式 的 Elements 工具 查看 “看 过 ”页 面 


https://movie. douban. com/people/user nickname/collect? start = 15&sort = time&rating = 
all&filter = all&mode = grid 


user nickname 部 分 是 用 户 ID, 即 每 个 人 的 个 人 豆瓣 主页 地 址 的 ID。 该 页 面 中 
纵向 列 出 了 用 户 看 过 的 电影 ,在 网 页 中 单 击 “下 一 页 ?会 使 得 start 的 值 逐次 增加 15。 
其 中 每 个 电影 页 面 的 URL 格式 如 下 : 


https://movie. douban. com/subject/ID/ 

不 难 发 现 ,电影 对 应 的 显示 其 各 个 海报 图 片 的 页 面 的 URL 地 址 如 下 : 

https: //movie. douban. com/ subject/ID/photos?type = R 

在 海报 页 面 中 可 以 获得 第 一 个 海报 图 片 的 原 图 地 址 ( 见 图 11-2 ,一 般 第 一 个 海报 
图 片 就 是 被 用 作 该 电影 页 面 封面 的 图 片 ) ,之 后 使 用 requests 来 请 求 这 个 地 址 并 下 载 


到 本 地 即 可 。 

整个 候 虫 程序 的 流程 是 进入 “我 看 过 的 电影 ”页面 > 抓 取 我 看 过 的 电影 一 进入 每 
个 电影 的 海报 页 面 一 下 载 海报 图 片 到 本 地 。 用 户 可 以 定义 一 个 名 为 DoubanSpider 
的 类 ,其 中 实现 了 完成 上 述 流 程 的 类 方法 。 
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«Link href-777 ing3. doubanio. con/dae/accounts/resources/321e246/shire/bundle.css" rel="stylesheet" type="text/ 
css" 


sc 
<script src="//img3.doubanio. com, ints/r: rces, 46/shire/bundle,js" defer="defer"></script> 
<link href-"//img3.doubanio.con/dae/accounts/resources/321e246/movie/bundle.css" rel="stylesheet" type-"text/ 


> <div id-"db-nav-movie" class-"nav"»..«/div» 
> <script Result" type="text/x-jquery-tmpl">..</script> 
«script src-"//img3.doubanio. com/dae/accounts/resources/321e246/movie/bundle. js" defer-"defer"»-/script» 
v «div id=" er 
v <div id="content"> 
<h1> 奇 异 博 士 Doctor 
v <div class="grid-1 
v <div class-"artic 


P «div class="opt! 
v «ut class=" 


<div class="prop"> 
1800x2521 
/div> 


><div class-"name"».-/div» 


图 11-2 ”使 用 Elements 工具 查看 电影 海报 页 面 


11.1.2. 处 理 登 录 问 题 


值得 注意 的 是 ,在 类 似 豆 准 网 的 这 种 内 容 导 向 的 社交 网 站 上 ,很 多 内 容 都 是 需要 
用 户 登录 才能 查看 的 ,对 于 一 些 论坛 而 言 更 是 如 此 。 虽 然 用 户 候 取 自己 的 观 影 记录 
页 面 并 不 需要 登录 (实际 上 ,目前 的 豆 辩 网 站 的 设计 是 访问 其 他 用 户 的 观 影 记录 页 面 
也 不 需要 登录 ) ,但 是 为 了 使 本 例 更 具有 普遍 性 ,同时 也 为 了 使 伶 虫 程序 更 接近 一 个 
真实 用 户 在 浏览 器 中 的 操作 ,不 妨 来 实现 模拟 豆瓣 登录 的 过 程 。 

登录 操作 ,粗略 地 说 就 是 向 网 站 发 送 一 个 表单 数据 ,表单 中 包含 了 用 户 名 和 密码 
等 关键 信息 ,用户 使 用 Chrome 开发 者 模式 的 Elements 工具 就 能 够 观察 到 登录 表单 
的 这 些 内 容 , 如 图 11-3 Bros o 

不 难 发 现 , 登 录 表 单 中 必要 的 数据 如 下 。 

* form email; 用 户 的 邮箱 。 

* form password; 用 户 的 密码 。 

* login: 这 个 字段 的 值 是 “登录 ”。 
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11-3 查看 登录 界面 的 各 个 字段 


* redir: 登录 重 定向 地 址 ,为 豆瓣 首页 (www. douban. com) 。 

另外 ,验证 码 的 地 址 在 < img id 王 "captcha_image"> 这 个 标签 之 中 (准确 地 说 ,就 
是 这 个 元 素 的 src 属性 ) ,用 户 的 登录 操作 有 时 候 会 遇 到 验证 码 问题 ,这 时 就 需要 抓 取 
这 个 验证 码 图 片 并 进行 后 续 处 理 了 。 用 户 可 以 使 用 之 前 提 到 过 的 OCR 或 者 云 打 码 
平台 来 解决 这 个 问题 ,不 过 为 了 简单 ,在 此 使 用 手动 输入 的 策略 , 即 如 果 遇 到 验证 码 ， 
由 疏 虫 编写 者 手动 输入 验证 码 结果 再 由 程序 发 送 到 服务 器 并 登录 。 

解决 了 发 送 登录 数据 和 验证 码 的 问题 ,不 妨 再 想 一 下 ,难道 对 于 这 些 需 要 登录 的 
网 站 每 次 开始 爬 取 时 都 要 手动 登录 一 次 吗 ? 这 在 第 5 章 中 已 经 讨论 过 ,其 实 这 种 繁 
杂 的 工作 完全 可 以 避免 , 想 想 平时 用 浏览 器 打开 网 站 的 情景 : 登录 之 后 如 果 关 掉 了 
页 面 , 等 一 会 儿 再 次 打开 这 个 网 站 时 ,似乎 不 必 再 重新 登录 一 次 。 这 是 因为 登录 之 后 
服务 器 会 在 用 户 的 本 地 设备 上 保存 一 份 Cookie 文件 ,Cookie 可 以 帮助 服务 器 确定 用 
户 的 身份 。Cookie 机 制 工作 的 流程 如 下 : 

CD 浏览 器 向 某 个 URL 地 址 发 起 HTTP 请 求 , 比 如 GET 获取 一 个 页 面 \.POST 
发 送 一 个 登录 表单 等 。 

(2) 服务 器 收 到 该 HTTP 请 求 , 处 理 并 返回 给 浏览 器 对 应 的 HTTP 响应 。 

(3) 在 响应 头 加 入 Set-Cookie 字段 , 它 的 值 是 要 设置 的 Cookie. 

(4) 浏览 器 收 到 来 自 服务 器 的 HTTP 响应 。 

(5) 浏览 器 在 响应 头 中 发 现 Set-Cookie 字段 ,就 会 将 该 字段 的 值 保存 在 本 地 (内 
存 或 者 硬盘 中 )。Set-Cookie 字段 的 值 可 以 是 很 多 项 Cookie, 每 一 项 都 可 以 指定 过 期 


| Be RARR: 保存 感 兴趣 的 5 (09), 


时 间 Expires. 

(6) 浏览 器 下 次 给 该 服务 器 发 送 HTTP 请 求 时 会 自动 把 服务 器 之 前 设置 的 
Cookie 附加 在 HTTP 请 求 的 头 字段 Cookie 中 。 浏 览 器 可 以 存储 多 个 域名 下 的 
Cookie, 但 只 发 送 当前 请 求 的 域名 曾经 指定 的 Cookie, 用 于 区 分 不 同 的 网 站 。 

CD 服务 器 收 到 这 个 HTTP 请 求 ,发 现 请 求 头 中 有 特定 的 Cookie, 便 知道 这 次 访 
问 来 自 之 前 的 这 个 浏览 器 (也 就 是 坐 在 计算 机 前 的 用 户 )。 

(8) 过 期 的 Cookie 会 被 浏览 器 删除 。 

所 以 ,如 果 用 户 登录 成 功 过 一 次 ,同时 把 这 时 的 Cookie 存储 下 来 ,下 一 次 再 发 送 
请 求 时 网 站 服务 器 从 Cookie 字段 得 知 该 用 户 已 经 登录 了 ,那么 就 会 按照 已 登录 用 户 
的 状态 来 处 理 此 次 HTTP 请 求 。 在 Cookie 过 期 之 前 (十 分 幸运 的 是 ,不 少 网 站 的 
Cookie 过 期 期 限 都 较 长 ,至 少 今天 早上 的 Cookie 下 午 还 是 能 拿 来 用 的 ) ,用 户 能 够 一 
直 使 用 这 个 Cookie 来 “欺骗 "网 站 。 用 户 身 份 验证 与 Cookie 还 有 着 很 多 更 为 复杂 的 
技术 和 相关 设计 ,例如 Cookie 防 算 改 方法 等 ,在 本 例 中 先 简单 粗暴 地 使 用 重新 加 载 
Cookie 的 策略 来 对 待 这 个 问题 。 

在 具体 的 实现 中 ,可 以 使 用 requests 的 会 话 对 象 (Session)。 有 了 Session, 用 户 
可 以 比较 方便 地 实现 上 述 的 Cookie 相关 操作 ,因为 会 话 对 象 能 够 跨 请 求 保持 某 些 参 
数 , 也 可 以 在 同一 个 Session 实例 发 出 的 所 有 请 求 之 间 保 持 Cookie 数据 。 根据 官方 
的 建议 ,如 果 用 户 向 同一 个 主机 发 送 多 个 请 求 ,使 用 Session 可 以 使 得 底层 的 TCP 连 
接 被 重用 ,从 而 带 来 性 能 上 的 提升 。 
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【 例 11-1] DoubanSpider. py. 


import time, sys, re, os, requests, json, random 
from lxml import html 
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from PIL import Image 
from pprint import pprint 


class DoubanSpider(): 
session = requests. Session() 
_douban_url = 'https://accounts. douban. com/login' 
_header_data = ('Accept': ‘text/html, application/xhtml + xml, application/xml; q = 0.9, 
image/webp, * / * ;q=0.8', 
‘Accept - Encoding’: ‘gzip, deflate, sdch, br', 
‘Connection’: ‘keep - alive’, 
‘Cache - Control': 'max- age=0', 
'Host': 'www. douban. com', 
‘User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 
} 
_captcha_url='"' 


def init (self, nickname): 
self.initial() 
self. usernick = nickname 


def initial(self): 
if os. path. exists( 'cookiefile') : 
print( have cookies yet') 
self.read cookies() 
else: 
self. login() 


def login(self): 


r= self. session. get ( 'https://accounts. douban. com/login', headers = self. _header_ 
data) 

print(r.status code) 

self.input login data() 

login data = ('form email': self. username, 'form password': self. password, "login": 
u'XE 3 '," redir": "https://www. douban. con" ) 

responsel = html. fromstring(r. content) 


if len(responsel.xpath('// * [@id = "captcha image"]')) > 0: 
self. captcha url = responsel. xpath( '// * [@id = "captcha image" ]/@src')[0] 
print(self. captcha url) 
self.show an online img(url- self. captcha url) 
captcha value = input(" 输 入 图 中 的 验证 码 ") 
login data[ 'captcha - solution'] = captcha value 


r= self. session. post(self._douban_url, data = login data, headers = self. header 
data) 
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r homepage = self. session.get('https://www.douban.com', headers = self. header data) 


pprint(html.fromstring(r homepage.content)) 
self.save cookies() 


def download img(self, url, filename): 
header = self. header data 
match re. search( 'img\d\.doubanio\.com', url) 
header[ 'Host'] = url[match. start() :match. end()] 


print( Downloading') 
filepath = os. path. join(os.getcwd(), 'pics/{}. jpg’. format( filename) ) 


self. random_sleep() 
r= requests. get(url, headers = header) 
if r.ok: 
with open(filepath, 'wb') as f: 
f. write(r.content) 
print( Downloaded Done! ') 
else: 
print(r.status code) 
delr 


return filepath 


def show an online img(self, url): 
path = self.download img(url, 'online img') 
img = Image. open(path) 
img. show() 
os. renove( path) 


def save cookies(self): 
with open('./' * "cookiefile", 'w')as f: 
json.dump(self. session.cookies.get dict(), f) 


def read cookies(self): 
with open('./' * 'cookiefile')as f: 
cookie = json. load(£) 
self. session. cookies. update(cookie) 


def input login data(self): 
global email 
global password 


self. username = input ( ' 输 入 用 户 名 (必须 是 注册 时 的 邮箱 ): ) 
self. password = input( ' 输 入 密码 :') 
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def get home page(self): 
r-self. session.get( https://www. douban. con') 
h= html. fromstring(r. content) 
print (h. text_content()) 


def get movie I watched(self, maxpage): 
moviename watched = [] 


url start = 'https://movie. douban. com/people/()/collect'.format(self. usernick) 
lastpage xpath- '// * [@id = "content" ]/div[2]/div[1]/div[3]/a[5]/text() ' 


r= self. session.get(url start, headers = self. header data) 
h= html, fronstring(r. content) 


urls =\ 
[ https: //movie. douban. com/ people/ ()/collect?start = ()&sort = time&rating = all&filter = 
all&mode = grid'.format( 
self. usernick, 15 * i) for i in range(0, maxpage)] 
for url in urls: 
r=self._session. get(url) 
h= html. fromstring(r. content) 


movie_titles = h. xpath( '// * [@id= "content" ]/div[2]/div[1]/div[2]/div') 
for one in movie titles: 

movie name = one. xpath( '. /div[2]/u1/1i[1]/a/em/text() ') [0] 

movie url = one. xpath( '. /div[1]/a/@href')[0] 

moviename watched. append(self.text cleaner(movie name)) 

self.download movie pic(movie url, movie name) 

self.random sleep() 


return moviename watched 


def download movie pic(self, movie page url, moviename): 
moviename = self.text cleaner(moviename) 
movie pics page url - movie page url * 'photos?type- R' 
print(movie pics page url) 


xpath_exp = '// * [@id= "content" ]/div/div[1]/u1/1i[1]/div[1]/a/ing' 


response = self. session.get(movie pics page url) 
h= html. fromstring( response. content) 


if len(h.xpath(xpath exp)) > 0: 
pic url- h.xpath(xpath exp)[0].get('src') 
print(pic url) 
self.download img(pic url, moviename) 
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def text_cleaner(self, text): 


text = str( text). replace('\n', ''). strip('').replace('\\n', "'). replace('/’ 
(QUEEN 


return text 


, ‘7 '). replace 


def random sleep(self): 
t= random. randrange(50, 200) 
t=float(t) / 100 
print ("We will sleep for {} seconds". format(t) ) 
time. sleep(t) 


def get book I read(self, maxpage): 
bookname read - [()] 


urls- V 


[ "https: / / book. douban. com/ people/ () /collect?start = ()&sort = time&rating = all&filter = 
all&mode = grid’. format( 


self. usernick, 15 * i) 
for i in range(0, maxpage) ] 


for url in urls: 
rz7self. session.get(url) 
h= html. fromstring(r. content) 
book titles = h.xpath('// * [@id="content" ]/div[2]/div[1]/u1/li') 
for one in book titles: 
name = one. xpath( '. /div[2]/h2/a/text() ') [0] 
base info = one. xpath( './div[2]/div[1]/text() ') [0] 
bookname read.append((self.text cleaner(name), self.text cleaner(base info))) 


return bookname read 


E inp" MARMARA, 即 个 人 主页 地 址 中 /people/ 后 的 部 分 : 
maxpagenum = int(input(" 输 入 观 影 记录 的 最 大 抓 取 页 数 : ") ) 
db = DoubanSpider(nickname) 


pprint(db. get movie I watched(maxpagenum)) 


11.2.2 程序 分 析 


这 个 DoubanSpider 的 属性 和 方法 如 下 。 

. __init O: 这 是 一 个 “构造 函数 ”, 如 果 类 的 一 个 对 象 被 建立 就 会 运行 , 换 句 
话说 ,就 是 初始 化 

* initial: OE 

* loginO: 实现 登录 操作 。 


Python 网 络 肥 虫 实战 


download imgO : 把 一 个 URL 地 址 的 图 片 以 特定 的 文件 名 下 载 到 本 地 。 
show. an online img(): 下 载 一 个 图 片 并 打开 。 
save cookiesO : 保存 Cookie. 


read cookiesO : 读 取 Cookie. 

input login dataO ; 负责 输入 登录 所 需 的 数据 ( 即 邮箱 和 密码 ) 。 
get_home_page(): 访问 豆瓣 主页 并 输出 HTML 数据 。 

get movie I watchedO ; 访问 “我 看 过 ”页 面 并 循环 抓 取 。 
download_movie_pic(): 根据 一 个 电影 主页 链接 和 电影 名 下 载 海 报 ,调用 
download_img() 方 法 。 

text_cleaner(): 自 定义 的 字符 串 清洗 函数 。 

random_sleep(): 随机 休眠 ,保证 疏 虫 不 过 多 地 消耗 服务 器 资源 。 
get_book_I_read(): 这 是 一 个 附加 的 功能 函数 ,可 以 获取 “我 读 过 ”的 所 有 
书籍 。 

_captcha_url: 类 属性 (class attribute) ,验证 码 地 址 。 

_douban_url: 类 属性 ,豆瓣 登录 页 面 地 址 。 

_header_data: 类 属性 ,保存 了 包括 用 户 代理 数据 等 的 一 个 dict HA. 
_session: 类 属性 ,会 话 对 象 。 

_usernick: 实例 属性 ,用户 ID. 

password: 实例 属性 ,登录 的 密码 。 

* username: 实例 属性 ,登录 的 用 户 名 ( 即 用 户 的 邮箱 地 址 ) 。 

【 例 11-2] 类 属性 示例 。 


class A(): 
attl- 'class attl' 
att2=1 
def | init (self): 
self.attl- 'instance attl' 


a-A() 
print(a.attl) 
print(a.att2) 


类 属性 是 指 直接 属于 类 的 属性 (变量 ), 可 以 通过 类 名 直接 访问 。 实 例 属 性 则 只 
存在 于 对 象 的 实例 中 ,每 一 个 不 同 的 实例 都 有 只 属于 自己 的 实例 属性 。 当 用 户 试图 
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通过 一 个 类 的 实例 访问 某 个 属性 的 时 候 ,Python 解释 器 会 首先 在 实例 (的 命名 空间 ) 
里 寻找 ,如 果 失 败 , 就 会 去 类 属性 中 寻找 ,因此 例 11-2 的 输出 为 : 


"instance attl 

1" 

另外 ,以 单 下 画 线 开头 的 变量 名 意味 着 “保护 ”属性 , 即 在 from XXX import * 时 
以 单 下 画 线 开头 的 名 称 都 不 会 被 导入 。 

在 initial() 中 ,首先 检查 本 地 Cookie 文件 是 否 存在 ,如 果 存 在 就 直接 读 取 Cookie 
进行 后 面 的 操作 ,如果 不 存在 就 先 执行 登录 操作 。login() 方 法 使 用 Session 来 访问 登 
录 页 面 : 


r-self. session.get('https://accounts.douban.com/login', headers = self. header data) 


之 后 使 用 input_login_data() 来 获取 键盘 输入 ,包括 邮箱 和 密码 等 。 同 时 ,如 果 
网 页 中 出 现 了 验证 码 : 


if len(responsel.xpath('// * [@id= "captcha image"]')) > 0: 


就 调用 show_an_online_img() 方 法 将 验证 码 图 片 下 载 到 本 地 并 打开 ,之 后 由 用 户 输 
入 验证 码 内 容 。 继 续 使 用 Session 来 发 送 登 录 表单 : 


r= self. session.post(self. douban url, data = login data, headers = self. header data) 
Za tibus e] SE ETE UU 
r homepage- self. session.get('https://www.douban.com', headers = self. header data) 


最 后 调用 save_cookies() 方 法 。 这 个 方法 使 用 json. dumpO ff get. dict OJr iR 
可 的 字典 结构 保存 到 cookiefile 文件 中 ,以 备 之 后 使 用 。read_cookies() 方 法 则 执行 
与 之 相反 的 操作 一 一 从 cookiefile 文件 中 读 取 数 据 , 使 用 json. load() 来 加 载 该 文件 中 
的 内 容 ,并 使 用 update() 来 设置 当前 Session 的 Cookie. 

在 download_img() 方 法 中 ,针对 传 进来 的 URL 参数 ,使 用 正则 匹配 得 到 的 结果 
更 改 了 header 的 Host 值 ,Host 代表 服务 器 的 域名 (用 于 虚拟 主机 ) ,以 及 服务 器 所 监 
听 的 传输 控制 协议 端口 号 。 因 为 豆瓣 海报 图 片 的 URL 指向 的 是 doubanio. com 这 个 
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域名 的 服务 器 ,而 不 是 douban. com, 因 此 有 必要 对 原来 的 Host 字段 值 进行 更 改 。 如 
果 不 进行 这 个 更 改 , 在 请 求 海报 图 片 并 下 载 时 程序 可 能 会 报错 。 
show_an_online_img() 方 法 的 设计 是 为 了 查看 一 次 图 片 : 
img = Image. open(path) 


ing.show() 
os. remove( path) 


这 些 代码 使 用 了 PIL 的 Image 来 打开 一 个 图 片 并 显示 ,结束 之 后 会 删除 该 文件 。 
PIL 是 Python 图 像 处 理 库 , 十 分 流行 ,不 过 它 有 一 个 更 加 流行 的 子 版 本 (分 支 ) 一 - 
Pillow, 这 里 使 用 Pillow 是 完全 可 以 的 。 和 PIL 一 样 ,Pillow 的 功能 也 十 分 强大 ,可 
以 完成 改变 图 像 大 小 、 旋 转 图 像 转换 图 像 格 式 、 增 强 图 像 等 各 种 操作 。 

在 get_movie_I_watched() 中 一 步 步 解析 网 页 ,定位 元 素 ,对 每 一 个 电影 页 面 都 
执行 一 次 download_movie_pic() 方 法 ,之 后 使 用 random_sleep() 暂 停 一 个 随机 的 时 
间 , 以 防 下 载 频率 过 高 。 另 外 ,在 类 方法 中 还 包括 get_book_I_read(): 


for url in urls: 
r -self. session.get(url) 
h = html. fronstring(r.content) 
book titles = h.xpath('// * [@id = "content" ]/div[2]/div[1]/ul/li') 
for one in book titles: 
name = one. xpath( '. /div[2]/h2/a/text() ') [0] 
base info = one. xpath( '. /div[2]/div[1]/text() ') [0] 
bookname read.append((self.text cleaner(name), self.text cleaner(base info))) 


该 方法 将 访问 “ 读 过 ”页 面 ,上 面 的 循环 会 不 断定 位 所 读 过 书籍 的 书 名 (title) ,这 
个 方法 最 终 会 返回 一 个 书籍 列表 ,列表 的 每 个 元 素 都 是 一 个 元 组 ,其 中 包含 了 书籍 名 
和 其 他 信息 (例如 作者 、 出 版 社 等 )。 首 先 创建 一 个 DoubanSpider 的 对 象 ,再 调用 该 
WE 

由 图 11-4 可 以 看 到 程序 成 功 地 输出 了 用 户 读 过 的 书 的 基本 信息 ,如 果 想 保存 这 
些 信 息 ,编写 写 人 到 文件 的 代码 即 可 。 另 外 ,因为 这 里 的 DoubanSpider 对 象 是 使 用 
用 户 自 己 输入 的 用 户 ID 来 初始 化 的 ,如 果 不 仅仅 想 要 怜 取 自 己 的 信息 ,还 打算 获 
取 其 他 用 户 的 读书 观 影 记录 ,只 需要 输入 他 人 主页 地 址 中 的 ID, 之 后 再 运行 程序 
Il nf. 


xr 
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CRAZS", ARRAS, MLA, EE CLER -2014-4-2'), 
( " 诸 神 的 微笑 '， “芥川 龙 之 介 -小 0- 复 旦 大 学 出 版 社 -2011-1-26.66 元 ') , 

( "Python 网 络 数据 采集 ' ，' 米 切 尔 (RyanMitcheLL)- 陶 俊杰 、 陈 小 莉 ~ 人 民 闻 电 出 版 社 -2016-3-1-CNY59.99')， 
CAESARS, | [法 ] 托 克 维尔 - 冯 棠 、 桂 裕 芳 、 张 芝 联 -商务 印 书馆 -2012-8-48.06 元 ") ， 


图 11-4 输出 结果 


11.3 运行 并 查看 结果 


运行 这 个 脚本 ,登录 后 输入 对 应 的 数据 ,就 可 以 看 到 疏 虫 将 图 片 一 步 一 步 下 载 到 
本 地 ,如 图 11-5 所 示 。 


Downloaded Done! 
We will sleep for 0.61 seconds 


Downloading 
Felt Gm Dra for 0.62 seconds 


e! 
We We mitt sleep for 0.96 seconds 
‘movie. douban. 


7/photos?type-R 
i ^m, 744: 
Downloading 
Mx m BR foc 666 seconds 
wew mitt are nce 
https://i nio. com/ vit to/m/ publ ic/p2180206213.. 


Downloading - 
We will sleep for 0.68 seconds 


图 11-5 程序 运行 时 的 输出 
当 登 录 过 一 次 之 后 ,就 不 需要 再 次 手动 登录 了 ,cookiefile 文件 中 的 数据 会 让 网 
站 认为 该 程序 是 刚刚 登录 过 的 浏览 器 ,因此 可 以 保持 登录 状态 。 打 开 pics 子 文件 夹 ， 
可 以 发 现 各 个 电影 对 应 的 海报 图 片 , 如 图 11-6 所 示 。 


~E xe 


宇宙 时 空 之 旅 - 1886: 黑暗 骑士 - 蝙蝠 侠 : 黑暗 骑士 港 加 jpg 大 侦探 福尔摩斯 - 


Cosmos..sseyjpg TheDar..nightjpg 崛起 -Th..Risesjpg Sherloc...Imes.jpg 
一 球 成 名 - FEZA- $A -Ant-Man.jpg 万 物理 论 - 马 男 波 杰克 第 一 
Goall.jpg Mr.Nobody.jpg TheThe..thingjpg 3&-BoJa..sontjpg 


11-6 查看 文件 夹 中 的 电影 海报 


当然 ,这 个 程序 还 有 很 多 缺憾 ,例如 没有 考虑 到 异常 处 理 , 因 此 程序 的 健壮 性 并 
不 好 ,另外 ,对 于 登录 操作 也 没有 必要 的 状态 提示 。 对 于 豆瓣 网 这 种 大 型 商业 网 站 而 
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总 而 言 之 ,在 这 样 一 个 简单 程序 的 基础 上 能 做 的 改进 还 有 很 多 。 不 过 ,这 个 例子 
也 是 以 证 明 Python 的 简洁 性 ,完成 这 样 一 个 和 怜 虫 并 没有 多 么 费时 、 费 力 , 有赖 于 
requests 模块 的 帮助 ,用户 能 够 又 快 . 又 好 地 完成 自己 的 目标 。 


11.4 本 章 小 结 


本 章 使 用 requests 完成 了 豆瓣 网 站 的 登录 和 下 载 图 片 这 两 个 核心 任务 ,在 第 5 
章 介绍 登录 问题 的 基础 上 给 出 了 又 一 个 示例 ,在 处 理 文本 内 容 的 基础 上 又 前 进 了 一 
步 ,本 章 使 用 到 了 新 的 功能 模块 一 一 PIL( 和 Pillow) ,在 第 3 章 曾 简要 介绍 过 其 使 用 ， 
对 于 更 深入 的 内 容 , 读 者 可 访问 “pillow. readthedocs. io/en/4. 3. x/” 以 及 “docs. 


python-guide. org/en/latest/scenarios/imaging/”。 


本 童 以 抓 取 并 分 析 网 站 上 的 电影 评论 为 例 展开 介 绍 , 目 标 网 站 是 知名 的 豆瓣 网 
(www. douban. com)。 同 时 ,在 候 虫 编写 中 引入 多 线程 编程 ,并 借用 一 些 文本 分 析 工 
具 对 数据 进行 进一步 的 处 理 和 分 析 , 最 后 对 候 虫 代理 这 一 主题 进行 简单 的 回顾 。 


12.1 需求 分 析 与 候 虫 设计 


12.1.1 网 页 分 析 


从 最 基本 的 需求 出 发 ,在 豆 辩 的 某 个 电影 页 面 息 取 网 友 给 出 的 电影 短评 ,首先 应 
该 分 析 一 下 网 页 源 代 码 。 不 难 发 现 ,豆瓣 网 站 的 电影 条 目 都 具有 一 个 独特 的 ID. HE 
如 《黑客 帝国 》 的 页 面 地 址 为 “https://movie. douban. com/subject/1291843/”, 其 影 
评 对 应 的 地 址 为 “https://movie. douban. com/subject/1291843/comments?status = 
P”( 这 实际 上 是 一 个 带 参数 的 URL), 而 电影 《我 是 传奇 ) 的 页 面 地 址 为 “https:// 
movie. douban. com/subject/1820156/". 其 影评 对 应 的 地 址 为 “https://movie. 
douban. com/subject/1820156/comments”。 换 句 话 说 ,只 需要 某 部 电影 的 页 面 地 址 ， 
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就 能 直接 构造 出 其 影评 地 址 的 URL 字符 串 。 接 下 来 分 析 其 影评 页 面 ,如 图 12-1 
所 示 。 


"540764268" » 
tibefore 
* Xdiv class-"avatar"».«/div» 
Y kdiv class-"comment" 
bi. ha» 
我 那样 滑 甚 式 的 跳 路 


种 进化 . 


«a class-"js-irrelevant irrelevant" 
href="javascript:;"> 这 条 短评 跟 影片 无 关 
</a> 

* Xdiv class-"comment-report" style- 
"visibility: hidden;"».«/div» 


图 12-1 豆瓣 影评 页 面 结构 (部 分 ) 
可 以 发 现 每 条 评论 内 容 是 在 div 标签 的 comment 类 下 面 , 因 此 用 户 只 需要 通过 
BeautifulSoup 找到 所 有 这 样 的 元 素 ,获取 其 文本 内 容 即 可 ,代码 如 下 : 


bs = BeautifulSoup(html, 'html.parser') 
div_list = bs.find all('div', class - 'comment') 


for item in div list: 
if item.find all('p')[0].string is not None: 
result list.append(item.find all('p')[0].string) 


12.1.2. 因数 设计 


在 网 页 分 析 完 毕 后 ,需要 考虑 一 下 抓 取 到 短评 后 的 任务 。 首 先 可 以 将 所 有 短评 
放 在 一 个 字符 串 中 ,然后 对 其 进行 数据 清洗 ,主要 是 筛 掉 很 多 不 必要 的 标点 符号 。 为 
了 完成 这 个 任务 ,可 以 使 用 re. sub() 方 法 。 

在 影评 分 析 方 面 , 使 用 jieba 和 SnowNLP 配合 处 理 。 另 外 ,要 进行 词 频 统计 , 先 
要 进行 中 文 分 词 操作 ,用户 需 要 有 自己 的 停 用 词 库 。 所 谓 的 停 用 词 ,就 是 为 节省 存储 
空间 和 提高 搜索 效率 ,在 处 理 自然 语言 数据 时 会 自动 忽略 (过 滤 ) 掉 的 词 。 一 般 会 把 
停 用 词 放 在 一 个 名 为 StopWords. txt 的 文件 中 ,在 网 络 上 有 很 多 现成 的 停 用 词 表 可 
供用 户 下 载 ,读者 可 以 访问 “https://github. com/chdd/weibo/blob/master/ 
stopwords/ % E5 % 93 % 88 % E5 % B7 /6 AS % E5% A476 AT HES % 81% 9C% E7% 94% 
A8% E8 % AF% 8D% E8% A1% A8. txt” 来 获取 。 


| 第 12 章 ”爬虫 实践 ， 网 上 影评 分 析 


最 后 还 需要 一 个 核心 的 负责 抓 取 业 务 的 函数 ,很 显然 , 它 应 该 接收 最 大 抓 取 页 
数 .线程 数 ,电影 ID 等 参数 ,返回 影评 词 频 分 析 的 结果 。 为 了 实现 多 线程 ,可 以 定义 
一 个 工作 线程 , 它 从 一 个 线程 安全 的 队列 中 取得 抓 取 任 务 ,并 将 抓 取 影 评 的 结果 存储 
在 一 个 类 变量 中 。 这 个 线程 类 可 以 是 这 样 的 : 

class MYThread(threading. Thread) : 


CommentList = [ ] 
Que = Queue() 


def init (self, i, MovieID): 
super(MyThread, self). init () 
self. name = '{}th thread’. format( i) 
self.movie = MovieID 


def run(self): 
logging. debug( 'Now running: \t{}'. format(self. name) ) 
while not MyThread. Que. empty() : 
page = MyThread. Que. get() 
commentList_temp = GetCommentsByID(self.movie, page + 1) 
MyThread. CommentList. append(commentList_temp) 
MyThread. Que. task done( ) 


12.2 #5 WR 


12.2.1 编写 程序 


在 分 析 网 页 结构 之 后 ,下 面 以 (玩具 总 动员 ) 的 电影 评价 为 例 着 手 编写 程序 。 大 
家 可 以 先 大 概 思考 一 下 代码 中 主要 的 类 与 函数 。 
MyThread(): 自 定义 的 线程 类 (在 继承 threading. Thread 的 基础 上 ) ,负责 执 
行 抓 取 函数 。 
MovieURLtoID(): 负责 把 URL 中 的 电影 ID 筛选 出 来 ,返回 ID 值 。 
GetCommentsByID() : 接收 MovieID 和 PageNum 两 个 参数 , 即 电影 ID 和 最 
大 抓 取 页 码 数 ,返回 一 个 抓 取 结果 的 列表 。 
DFGraphBarO : 负责 将 DataFrame 中 的 词 频数 据 绘制 为 柱状 图 。 
WordFrequence(): 主 抓 取 函 数 ,返回 一 个 词 频 分 析 的 结果 。 
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* SumOfCommentO : 利用 SnowNLP 模块 中 的 summary() 方 法 对 评论 进行 简 
单 的 摘要 ,返回 摘要 结果 。 

最 终 程序 见 例 12-1。 

【 例 12-1] 豆 辩 影评 抓 取 与 分 析 程序 。 


import jieba, numpy, re, time, matplotlib, requests, logging, snownlp, threading 
import pandas as pd 

from pprint import pprint 

from bs4 import BeautifulSoup 

from matplotlib import pyplot as plt 

from queue import Queue 


matplotlib. rcParams[ 'font. sans - serif'] = ['KaiTi'] 
matplotlib. rcParams[ font.serif'] = ['KaiTi'] 


HEADERS = ('Accept': ‘text/html, application/xhtml + xml, application/xml;q = 0.9, image/webp, 
*/*;q=0.8', 

‘Accept - Encoding’: ‘gzip, deflate, sdch, br’, 

‘Accept - Language’: 'zh- CN, zh;q=0.8', 

'Connection': 'keep- alive’, 

'Cache - Control': 'max- age - 0', 

‘Upgrade - Insecure - Requests': '1', 

"User- Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/36.0.1985.125 Safari/537.36', 

) 
NOW PLAYING URL = 'https://movie.douban. com/nowplaying/beijing/' 
logging. basicConfig( level = logging. DEBUG) 


class MyThread( threading. Thread): 
CommentList = [] 
Que = Queue() 


def init (self, i, MovieID): 
super(MyThread, self). init () 
self. name = '{}th thread’. format( i) 
self. movie = MovieID 


def run(self): 
logging. debug( 'Now running: \t{}'. format(self. name) ) 
while not MyThread. Que. empty(): 
page = MyThread. Que. get() 
commentList_temp = GetCommentsByID(self.movie, page + 1) 
MyThread. CommentList. append(commentList_temp) 
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MyThread. Que. task_done( ) 


def MovieURLtoID( url): 
res = int(re.search( '(\D+ )(\d+ )(\/)', url).group(2)) 
return res 


def GetCommentsByID(MovieID, PageNum): 
result list-[] 
if PageNum » 0: 
start- (PageNum - 1) * 20 
else: 
logging. error( PageNum illegal! ') 
return False 


url = 'https: //movie. douban. com/subject/{ }/comments? start = { )&imit = 20'. format ( MovieID, 
str(start)) 

logging. debug( 'Handling :\t{}'. format(url)) 

resp = requests. get(url, headers = HEADERS) 

html = resp. content. decode( 'utf - 8') 

bs BeautifulSoup(html, 'html.parser') 

div list = bs.find all('div', class = 'comment') 


for item in div list: 
if item.find all('p')[0].string is not None: 
result list.append(item. find all('p')[0].string) 
time.sleep(2) # Pause for several seconds 
return result list 


def DFGraphBar( df): 
df.plot(kind- "bar", title= 'Words Freq', x= 'seg', y= 'freq') 
plt. show() 


def WordFrequence(MaxPage = 15, ThreadNum = 8, movie = None): 
# 循环 获取 电影 的 评论 
if not movie: 
logging. error( 'No movie here’) 
return 
else: 
MovieID = movie 


for page in range( MaxPage ) : 
MyThread. Que. put(page) 


threads = [ ] 


HB 
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for i in range( ThreadNum) : 
work thread- MyThread(i, MovieID) 
work thread. setDaemon(True) 
threads.append(work thread) 

for thread in threads: 
thread. start() 


MyThread. Que. join() 
CommentList = MyThread. CommentList 


comments = '' 

for one in range(len(CommentList) ) : 
new comment = (str(CommentList[one])). strip() 
new comment = re. sub('[ - \\ \',\.n() # = /WNINI! — 17, "', new comment) 
# 使 用 正则 表达 式 清洗 文本 , 主要 是 去 除 一 些 标点 


Comments = comments + new comment 


pprint(SumOfComment (comments) ) # 输出 文本 摘要 
# 中 文 分 闻 

segments = jieba. lcut(comments) 

WordDF = pd. DataFrame(('seg': segments}) 


# 去 除 停 用 词 

stopwords = pd. read_csv(" stopwordsChinese. txt", 
index_col = False, 
names = [ 'stopword'], 
encoding = 'utf - 8") 


WordDF = WordDF[ ~WordDF. seg. isin( stopwords. stopword) ] # AUR 


# 统计 闻 频 

WordAnal = WordDF.groupby(by = [ 'seg']) [ 'seg']. agg({ '£req': numpy. size}) 

Wordanal = WordAnal.reset index().sort values(by- [ 'freq'], ascending = False) 
WordAnal = WordAnal[0:40] # 仅 取 前 40 个 高 频 词 


print(WordAnal) 
return WordAnal 


def SumOfComment ( comment ) : 
s = snownlp. SnowNLP( comment ) 
sum = s. summary(5) 
return sum 


# 执行 函数 
if name  -- ' main 


DFGraphBar(WordFrequence(movie = MovieURLtoID( ‘https: / / movie. douban. com/ subject/1291575/ '))) 
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程序 运行 后 ,文本 摘要 结果 的 输出 见 图 12-2。 


【 "让 我 想起 我 小 时 候 的 书 些 玩具 不 知道 现在 郡 哪 去 了 \\ 看 过 的 第 一 部 3D 动 画 片 '， 
Building prefix dict from the default dictionary 

"我 们 不 想 长 大 不 是 因为 大 人 的 世界 不 精彩 而 是 因为 大 人 的 世界 太 复杂 我 们 需要 闽 真 让 心灵 兆 化 \\ 第 一 次 接触 《玩具 总 动员 》 是 96 年 左右 高 中 时 玩 的 电子 游戏 十 年 | 
DEBUG: jieba:Building prefix dict from the default dictionary .. 

"a A A RIED HERNA BB IDEE PS WB RED AE RF — ABN A a RE RU EATER F T FREE] 

"NB 78030218 A PAE BE RE sb DP f Roe ERE IE ALIE SD A EA tA EN FH BT AR p 

"\\ 传 说 中 的 toystory 交 于 看 了 \\ 看 的 时 候 我 比 班 里 的 孩子 还 来 动 儿 \\ 看 了 后 两 部 之 后 对 第 一 部 有 TARSI I EPI EN EB l 


图 12-2 文本 摘要 的 结果 
对 词 频 分 析 结果 绘制 的 图 表 类 似 图 12-3 所 示 的 效果 。 


Words Freq 
250 
NEM freq 


图 12-3 词 频 图 表 
另外 ,由 于 上 面 的 程序 有 一 定 的 普 适 性 (可 以 在 其 他 类 似 的 候 虫 任务 中 使 用 类 似 
的 结构 ), 用 户 也 可 以 将 上 面 的 程序 抽象 一 下 ,编写 一 个 简单 的 多 线程 候 虫 模板 , 见 


例 12-2。 
【 例 12-2】 SAAN BAR. 


import threading 
import time 


Python 网 络 叹 虫 实战 | 
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thread. start() + 线程 开始 处 理 任务 
thread. join() 

# 等 待 所 有 任务 完成 

que. join() 


if name  -- ' main " 


main() 


12.2.2 可 能 的 改进 


之 前 已 经 提 到 ( 详 见 第 9 章 ) ,在 网 络 仆 虫 抓 取信 息 的 过 程 中 如 果 抓 取 强 度 ( 一 般 
而 言 就 是 频率 ) 过 高 ,很 有 可 能 被 网 站 禁止 访问 。 通 常 ,网 站 的 反 息 忠 机 制 会 依据 TP 
来 识别 爬虫 访问 ,为 了 躲避 网 站 的 封禁 ,用 户 要 么 选择 放 慢 抓 取 速 度 , 减 小 对 目标 网 
站 造成 的 压力 ,要 么 选择 “伪装 ” 咎 虫 ,通过 设置 代理 IP 等 手段 突破 反 疏 虫 机 制 继续 
进行 高 频率 抓 取 。 一 般 为 疏 虫 构建 一 个 代理 池 ,在 访问 时 按照 一 定 的 规则 (比如 随机 
地 ) 更 换代 理 , 通 过 这 种 方式 躲 开 封禁 ,让 目标 网 站 认为 这 是 普通 的 访问 。 

使 用 requests 能 很 轻松 地 实现 代理 访问 ,用 户 需 要 先 获得 代理 IP, 可 以 通过 一 些 
提供 代理 的 网 站 (比如 国内 的 一 个 代理 网 站 “http://www. xicidaili. com”) 获得。 一 
些 网 站 还 提供 了 代理 列表 下 载 ,比如 将 代理 地 址 下 载 到 本 地 TXT 文件 中 。 这 里 使 用 
一 段 小 程序 来 演示 这 个 过 程 , 见 例 12-3。 

【 例 12-3] 在 requests 中 使 用 代理 。 


import requests, time 


fp = open("proxylist.txt", 'r') 
lines = fp. readlines() 
print(lines) 
for ip in lines[0:]: 
ip = ip. strip( '\n') 
Print(" 当 前 代理 IP :\t" + ip) 
proxy ('http': 'http://() '. format(ip)} 


url = "http: //icanhazip. com" 

res = requests.get(url, proxies = proxy) 
print(res.status code) 

print(res.text) 

print(" 通 过 ") 

time. sleep(2) 
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icanhazip. com 这 个 网 站 将 提供 当前 访问 的 IP 信息 ,因此 用 户 通过 输出 response 
AY text 就 能 获知 代理 访问 是 否 成 功 。 注 意 ,requests 在 使 用 代理 时 需要 使 用 一 个 dict 
作为 参数 传人 ,dict 的 键 值 对 包括 协议 (http 或 https) 和 代理 (地 址 与 端口 )。 这 里 使 
用 61. 160. 190. 146 :8090 和 39. 134. 68. 24:80 这 两 个 在 代理 网 站 上 获得 的 代理 来 进 
行 测试 ,程序 的 输出 结果 为 ; 


['61.160.190.146:8090\n', '39.134.68.24:80'] 
当前 代理 IP :61.160.190.146:8090 

200 

61.160.190.146 

通过 

当前 代理 IP :39.134.68.24:80 

200 

39.134.68.17 

通过 


另外 值得 一 提 的 是 , 豆 辩 提供 了 本 地 热 映 页 面 , 即 *https://movie. douban. com/ 
cinema/nowplaying/beijing/”。 

用 户 可 以 在 浏览 器 中 输入 该 网 址 查看 网 页 结构 。 不 难 发 现 ,< div id >= 
"nowplaying" 标 签 中 包含 了 用 户 感 兴趣 的 文本 数据 ,其 中 有 电影 的 名 称 、 上 映 时 间 等 
信息 。 由 此 ,用 户 还 可 以 编写 一 个 GetrNowPlayingMovies() 函 数 ,获取 当前 热 映 榜 
单 ,配合 上 面 的 影评 抓 取 脚 本 ,可 以 对 当前 热 映 影 片 的 观众 评价 有 一 个 比较 简洁 、 直 
观 的 认识 : 


def GetNowPlayingMovies(): 
resp = requests.get(NOW PLAYING URL, headers = HEADERS) 
html resp. content. decode( 'utf - 8') 
soup = BeautifulSoup(html, 'html.parser') 
playing items - soup.find all('div', id- 'nowplaying') 
palying list = playing items[0].find all('li', class = 'list- item') 


result list-[] 
for item in palying list: 
dict = {} 
dict['id']- item[ 'data - subject'] 
for tag in item. find_all('img’): 
dict[ 'name'] = tag[ 'alt'] 
result_list. append(dict) 


return result_list 
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在 result. list 中 保存 了 热 映 电影 的 信息 (一 个 元 素 为 dict 的 list) ,如 果 用 户 想 遍 
历 这 些 信息 ,只 要 如 下 代码 即 可 : 


for movie item in result list: 


print(movie item['id']) # 输出 电影 的 ID 


当然 ,同样 的 抓 取 逻辑 通过 XPath 和 正则 匹配 等 也 能 够 实现 ,这 里 使 用 了 
BeautifulSoup 自 带 的 方法 ,相对 简单 一 些 。 


12.3 本章 小 结 


本 章 从 抓 取 网 页 文本 并 进行 简单 的 文本 分 析 和 挖掘 这 个 角度 出 发 ,完成 了 一 次 
有 一 定 综 合 应 用 价值 的 仆 虫 任务 。 关 于 使 用 threading. Thread 编写 多 线程 的 详细 内 
容 ,用 户 还 可 参考 附录 A 中 的 相关 说 明 ,多 线程 与 多 进程 的 更 多 比较 可 见 第 9 章 和 附 
录 A 中 的 相关 内 容 。 


视频 讲解 
在 本 章 的 息 虫 实践 中 将 注意 力 放 在 网 页 本 身 ,尝试 通过 息 虫 程序 来 批量 下 载 
HTML 网 页 。 之 前 的 候 虫 程序 一 般 通 过 定位 网 页 元 素 的 方法 来 获取 所 需要 的 信息 ， 
但 因为 这 里 的 新 任务 是 下 载 网 页 ,所 以 想 要 获取 的 信息 其 实 就 是 整个 网 页 。 这 里 需 
要 将 访问 得 到 的 网 页 作为 一 个 HTML 保存 下 来 ,在 这 个 过 程 中 ,通过 BeautifulSoup 
等 网 页 解析 工具 能 够 实现 对 网 页 信息 的 高 效 筛选 ,去 除 一 些 用 户 并 不 感 兴趣 的 信息 
(例如 广告 等 )。 


13.1 设计 抓 取 程序 


新 浪 财经 的 个 股 页 面 是 本 次 抓 取 的 主要 目标 ,新 浪 对 于 某 一 个 股 ( 沪 深 股 市 个 
股 ) 的 资讯 页 面 使 用 类 似 的 网 页 形式 ( 见 图 13-1) ,本 节 想 设计 程序 抓 取 某 一 个 股 ( 以 
其 股票 代码 作为 标识 ) 下 资讯 页 面 中 的 所 有 资讯 文章 ,并 将 它们 保存 到 本 地 。 

对 于 这 个 抓 取 目标 而 言 ,用户 不 难看 出 主要 需要 关注 两 个 步骤 ,一 是 访问 个 股 股 
票 代码 对 应 的 资讯 页 面 ,并 通过 解析 网 页 的 方式 获取 资讯 文章 URL 地 址 的 列表 ; 二 
是 根据 文章 URL 访问 网 页 并 保存 其 信息 。 个 股 资讯 文章 类 似 图 13-2。 
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图 13-1 新 浪 财 经 的 个 股 页 面 
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图 13-2 某 只 股票 的 一 篇 资讯 页 面 
不 过 ,用 户 很 快 就 会 发 现 ,股票 资讯 文章 页 面 中 充斥 着 一 些 自己 并 不 需要 的 广告 
或 者 新 浪 财 经 推送 信息 ,为 了 去 掉 这 些 信息 ,可 以 使 用 BeautifulSoup 中 的 decompose() 
方法 去 掉 一 个 结 点 (该 函数 的 作用 是 将 当前 结 点 移 除 文档 树 并 完全 销毁 ), 接 下 来 唯 
一 要 做 的 便 是 利用 Chrome 开发 者 工具 分 析 并 列 出 广告 元 素 , 如 图 13-3 所 示 。 
经 过 上 面 的 设计 和 分 析 , 最 终 编写 出 实现 抓 取 、 清 洗 和 保存 网 页 这 一 流程 的 程 
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图 13-3 分 析 页 面 内 容 中 的 广告 元 素 


序 , 见 例 13-1, 语 句 的 说 明 解 释 详 见 代码 注释 。 
【 例 13-1】 新 浪 财经 新 闻 页 面 的 抓 取 、 清 洗 与 保存 。 


import requests 

from bs4 import BeautifulSoup 
from collections import namedtuple 
import time 

import logging 

from pprint import pprint 

import re 

from bs4 import Comment 


logging. basicConfig( level = logging. DEBUG) 


headers = { 
‘User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', 
) 
# 定义 默认 股票 编号 
stock num = 'sz000722" 


def datetime parser(bs): 
* dE HTML 中 获取 发 布 日 期 和 时 间 
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datetime = str(bs.find(string = lambda text: isinstance(text, Comment))).lstrip 
(' [ published at ').rstrip('] ') 
if not re.match( '^\d{4} - \d{2} - \d{2}[\S\s] + $', datetime): 
datetime = '1991-01-01' # 默认 日 期 时 间 


return datetime 


def html saver(page, page bs): 
Ë 将 HTML 保存 到 本 地 文件 
with open( 'HTMLs/{} - ().html'.format(stock num, page.newstitle), 'wb') as f: 
f.write(page bs.prettify().encode('utf - 8')) 


def main(stocknum = None): 


if stocknum is not None: 
Stock num = stocknum 


res=[] 
ht = requests. get( 


‘http: //vip. stock. finance. sina. com. cn/corp/go. php/vCB AllNewsStock/symbol/(). phtml' 
.format(stock num), 
headers = headers 
). content. decode( 'gb2312') 
Stock news page = namedtuple( StockNewsPage', ['newstitle', 'newsurl']) 


try: 
page list- [stock news page(newstitle = one. text, newsurl = one[ 'href']) for one in 
BeautifulSoup(ht, '1xml').find('div', ('class': 'datelist')). 
find('ul').findAll('a')] 
except AttributeError: 
print( this stock may not exist') 
return None 
# pprint(page list) 


for page in page list[:]: 
logging. debug( visiting next page') 
time. sleep(2) + 等 待 两 秒 
ht = requests. get(page. newsurl, headers = headers). content. decode( 'utf - 8') 
bs = BeautifulSoup(ht, 'lxml') 


# 删除 所 有 不 必要 的 标签 
[s.decompose() for s in 
bs('script') * 
bs('noscript') * 
bs('style') * 
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bs.findAll('div', ('class': 'top- banner']) * 
bs.findAll('div', ('class': 'hgimg related'}) + 
bs.findAll('div', ('id': 'sina- header']) + 
bs.findAll('div', ('class': 'article- content - right'}) + 
bs.findAll('div', ('class': 'path- search')) + 
bs.findAll('div', ('class': 'page- tools']) * 
bs.findAll('div', ('class': 'page- right- bar']) + 
bs.findAll('div', ('class': 'most- read']) * 
bs.findAll('div', ('class': 'blk- wxfollow']) + 
bs.findAll('div', ('class': 'blk- related']) * 
bs.findAll('div', ('class': 'article- bottom- tg')) + 
bs.findAll('div', ('class': 'article- bottom'}) + 
bs. findAll('link', ('href': '//finance. sina. com. cn/other/src/sinafinance. article 
.min.css'}) + 
bs.findAll('div', ('class': ‘article - content - right'}) + 
bs.findAll('div', ('class': 'block- comment']) + 
bs.findAll('div', ('class': 'sina- header']) + 
bs.findAll('div', ('class': 'path- search'}) + 
bs.findAll('div', ('class': 'top- bar- wrap']) * 
bs.findAll('div', ('class': 'blk- related']) + 
bs.findAll('div', ('class': 'most- read']) * 
bs.findAll('div', ('class': 'ad']) * 
bs.findAll('div', ('class': 'new style article'}) + 
bs.findAll('div', ('class': 'feed- card- content']) * 
bs.findAll('div', ('class': 'page- footer']) + 
bs.findAll('div', ('class': 'sinal5 - top- bar- wrap']) * 
bs.findAll('div', ('class': 'site- header clearfix'}) + 
bs.findAll('div', ('class': 'right']) + 
bs.findAll('div', ('class': 'bottom- tool']) + 
bs.findAll('div', ('class': 'most - read']) + 
bs.findAll('div', ('id': "lcs wrap']) + 
bs.findAll('div', ('class': 'lcsl w']) + 
bs.findAll('div', ('class': 'desktop- side- tool')) + 
bs.findAll('div', ('class': 'feed- wrap']) + 
bs.findAll('div', ('class': 'article- info clearfix']) + 
bs.findAll('a', ('href': 'http://finance. sina.com.cn/focus/gmtspt.html']) + 
bs.findAll('iframe', ('class': 'sina- iframe - content ']) 


# 尝试 在 页 面 中 间 做 article - content div 
try: 
bs.find('div', ('class': 'article- content- left'})['class'] = 'article- content' 
except Exception as e: 
bs.find('div', ('class': 'left'})['class'] = 'article- content' 
finally: 
pass 


| is& rss. 使 用 了 中 下 载 网 页 (on) 


html saver(page, bs) 


for one in bs. findAll('a', ('class': 'keyword']): 
one. attrs = {} # 移 除 可 单 击 的 href 


d_res={ 
‘stock’: stock num, 
"title': bs. find('hl'). text, 
‘html': str(bs). replace('\n', ''), 
‘datetime’: datetime parser(bs) Ë 在 HTML 注释 中 查找 日 期 时 间 信 息 


res.append(d res) 


return res 


if name  -- ' main ': 


res = main('sz000722') 
pprint(res) 


当然 ,这 个 程序 还 存在 一 些 问题 ,主要 有 二 ,首先 是 在 保存 HTML 内 容 到 本 地 的 
过 程 中 使 用 了 相当 原始 的 文件 IO, 实 际 上 在 大 批量 抓 取 时 将 HTML 信息 保存 在 数 
据 库 ( 例 如 MongoDB) 中 是 比较 好 的 选择 ; 其 次 ,在 广告 元 素 清 洗 的 语句 部 分 元 余 较 
多 ,仍然 存在 很 大 的 改进 余地 ,可 以 考虑 将 待 清洗 元 素 规则 统一 保存 到 另 一 个 文本 文 
件 中 ,通过 一 个 读 取 函 数 进行 加 载 。 


运行 上 面 的 抓 取 程序 ,用 户 会 看 到 控制 台 产生 如 图 13-4 所 示 的 输出 。 


GET /corp/go. pho/vGR. Al evsstock/synbol/ sz008722.phtnt HTTP/1.1" 200 13416 


LIB3, connect iongooLiStarting new NTP conection (1): finance,sina.com.cn 
Atto! oce, tit, ot c1 "GET /stock/s/2018-07-85/doc-ihexfevi78s5295,shtal HTTP/1.1" 200 None 


3. connectionpeotiStarting new HTTP connection (1): finance.sina.cos.cn 
LLib3. connect ionpool :http:// finance. sina. cas.cn:B9 "GET /stock/s/2818-06-22/doc-shefphqa3400811.shtal HTTP/1.1" 208 None 


Lid. comectionpoct: DER ZZ Finance sn cos, cn “GET /stoci)stockta k/2018-06-22/doc-snefphan3337525.shtalHITP/1.1" 200 None 


33. connect ionpool:Starting new HTTP connection (1): finance.sina.com.cn. 
3. connectionpool: htta://finance.sina.com.cn:80 "GET /stock/s/2018-06-22/doc-ihefphqa2633579.shtel MITP/1.1" 200 None 
visiting next page 
LLib3. connectionpool:Starting new HTTP connection (1): finance.sina.com.cn 
33. connect ionpool:http:// finance. sing. cos, cn:88 "GET /stock/s/2818-86-21/doc-ihefphqag346049.shtel HTTP/1.1" 208 None 
isiting next page 
Llib. connect ionpool:Starting new HTTP connection (1): finance.sina.con.cn 
.Lib3. connectionpool:htta:// finance, Sina.com.cn:8@ "GET /stock/s/2018-86-21/doc-ihefphoaé08478S.shtel HITP/1.1" 200 None 


pesuc: isiting next page 

DEBUG:urlLib3.connectionpoolStarting new HTTP connection (1): finance. sina. com.cn 

DEBUG: ur tLib3. connect ionpool :http://finance. sing. cos. cnzBB "GET /stock/s/2018-83-12/doc-ifyscemuB633338. shtml HTTP/1.1" 200 None 
pesuc: isiting next 


Llib3.connectionpool:Starting new HTTP connection (1): finance. sina, com.cn 
Ulib3, connect ionpool :http:// Finance. sina.com.cn:B8 "GET /stock/hyy] /2018-83-82/doc-ifyrztf26322275.shtel WITP/1.1" 208 None 
DEBUG: root visiting next page 


13-4 运行 抓 取 程序 后 的 输出 
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待 程 序 结 束 运行 后 查看 本 地 文件 夹 , 可 以 看 到 HTML 文件 已 经 被 批量 保存 下 
来 ,如 图 13-5 所 示 。 


sz000722- 湖 南 发 展 集团 股份 有 .… 于 签署 战略 合作 协议 的 公告 .html Today at 10:50 PM 


sz000722- 今 日 突破 五 日 均线 个 股 一 览 .html Today at 10:50 PM 
sz000722- 电 力 发 展 " 十 三 五 “ 规 .… 三 细 分 领域 “充电 " 迎 * 升 机 "html — Today at 10:50 PM 
sz000722- 湖 南 发 展 集团 股份 有 限 公司 公告 (系列) .html Today at 10:50 PM 
sz000722-12 月 26 日 上 市 公司 重要 公告 集锦 .html Today at 10:50 PM 


sz000722- 湖 南 发 展 集团 股份 有 .… 取 得 国有 土地 使 用 权 的 公告 .html Today at 10:50 PM 
sz000722- 深 市 “ 首 批 年 报 股 "出 炉 : 汇金 科技 、 富 春 环保 中 标 .html Today at 10:50 PM 
sz000722- 国 企 改革 不 断 加 码 六 大 板块 有 望 成 2017 年 投资 新 主线 .html joday at 10:50 PM 
sz000722-: 130 日 线 .html Today at 10:50 PM 
sz000722- 游 资 揭秘 : 沪指 强势 震荡 ， 混 改 、 庄 股 表现 优异 .html Today at 10:50 PM 
Sz000722- 北 特 科 技 还 遇 “ 见 光 死 ” 2016 年 报 第 一 股 昨 跌停 .html Today at 10:49 PM 
sz000722- 快 讯 : 养老 概念 快速 .金陵 饭店 请 14 万 手 封 涨停 .html Today at 10:49 PM 
Sz000722- 养 老 概 念 突然 飚升 湖南 发 展 、 金 陵 饭店 涨停 .html Today at 10:49 PM 
sz000722- 午 间 机 构 看 市 ; 大 盘 冲 关 3600 点 只 欠 量 能 .html Today at 10:49 PM 
5200072288 JR: 子 公司 拟 参 与 推进 医疗 美容 产业 园 项 目 .html Today at 10:49 PM 
sz000722- 湖 南 发 展 集团 股份 有 ..…. 子 公司 完成 工商 登记 的 公告 .html Today at 10:49 PM 
sz000722- 湖 南 发 展 集团 股份 有 .… 会 第 二 十 二 次 会 议决 议 公告 .html Today at 10:49 PM 
sz000722- 湖 南 发 展 集团 股份 有 限 公司 2016 年 度 报告 摘要 .html Today at 10:49 PM 
sz000722- 披 露 "证 券 投资 "成 绩 单 23 家 上 市 公司 七 成 赚 了 钱 .htm| — Today at 10:49 PM 
sz000722- 湖 南 发 展 集团 股份 有 ... 年 度 股东 大 会 的 提示 性 公告 .html Today at 10:49 PM 
sz000722- 湖 南 发 展 集团 股份 有 .,.016 年 度 分 红 派 息 实施 公告 .html Today at 10:49 PM 
sz000722- 中 国电 子 : 积极 对 接 .积极 推进 军民 融合 产业 发 展 .htm| Today at 10:49 PM 


sz000722- 收 评 : 奥 港 省 概 念 再 度 活跃 多 省 本 地 股 跟风 .html Today at 10:49 PM 
sz000722- 股 海 导航 6 月 29 日 沪 深 股市 公告 提示 .html Today at 10:49 PM 
sz000722-【 财 联 社 公告 精 选 ) .html Today at 10:49 PM 


sz000722- 证 监 会 负责 人 : 股市 … 危 害 大 一 旦 发 现 必定 严惩 .html Today at 10:49 PM 
sz000722- 医 疗 保健 支出 增长 迅 .… 大 健康 产业 将 成 投资 新 风口 .html Today at 10:49 PM 


annnnnannnnnnonnnnnnnannnnnnnnnan 


Sz000722- 湖 南 发 展 控股 股东 拟 继续 增 持 .html Today at 10:49 PM 
sz000722- 湖 南 发 展 控股 股东 完成 增 持 计划 .html Today at 10:49 PM 
sz000722- 股 海 导航 2 月 26 日 沪 深 股 市 公告 提示 .html Today at 10:49 PM 
sz000722- 中 小 创 炒作 持续 升温 .持续 增长 中 小 创 股 只 有 65 股 .html Today at 10:48 PM 
sz000722- 杜 家 毫 与 郑 永 刚 座谈 ; 大 力 发 展 实体 经 济 .html Today at 10:48 PM 
sz000722-6 月 21 日 上 市 公司 晚间 公告 速递 .html Today at 10:48 PM 


图 13-5 本 地 文件 夹 中 的 HTML 文件 


13.3 展示 网 页 


在 将 新 浪 个 股 资讯 网 页 保存 到 本 地 后 , 便 可 以 考虑 进一步 对 网 页 进行 展示 了 ,这 
里 通过 Flask 对 Python Web 开发 的 “冰山 一 角 ” 进 行 介绍 。Flask 是 一 个 非常 流行 的 
轻 量 级 Python Web 框架 ,使 用 pip install flask 即 可 安装 。 所 谓 的 “Web 框架 ”, 其 实 
就 是 一 种 工具 ,一 种 用 来 帮助 用 户 更 简单 地 编写 Web 应 用 的 软件 框架 。 当 用 户 在 浏 
览 器 中 访问 一 个 地 址 时 , Web 框架 就 负责 处 理 其 HTTP 请 求 ,根据 HTML 和 
JavaScript 代码 生成 对 应 的 HTTP 响应 。 

使 用 PyCharm 可 以 选择 新 建 一 个 Flask 应 用 项 目 , 如 图 13-6 所 示 。 在 创建 后 将 
会 自动 生成 代码 ,如 下 (这 也 是 一 个 最 小 的 Flask 应 用 ) : 


| #13% ERIR 使 用 聆 虫 下 载 网 页 (337) 


ece New Project 

# Pire: Python Location: J 可 wmr, ee 

© Django rs beo P == 
Interpreter: ® 3.6.3 at /Library/Frameworks/Python.framework/Versions/3.6/... EJ LJ 

© Google App Engine » More Settings 


Pyramid 

Web2Py 

f Angular CLI 

@ AngularJs 
Foundation 

E HTML5 Boilerplate 
3$: React App 

3 React Native 

EJ Twitter Bootstrap 
© Web Starter Kit 


图 13-6 使 用 PyCharm 新 建 Flask 项 目 


from flask import Flask 
app = Flask(__name__) 


@app. route('/') 
def hello world(): 
return 'Hello, World! ' 


其 中 ,route() 将 会 指定 触发 hello world Off] URL, iz PR GR Ifl" Hello, World!" fri 
息 。 当 用 户 运行 这 个 程序 并 在 浏览 器 中 输入 127. 0. 0. 1:5000 时 ,访问 该 地 址 , 即 可 
看 到 “Hello，World!1” 信 息 的 页 面 。 

这 里 将 之 前 抓 取 到 的 HTML 文件 存放 到 Flask 项 目的 template 路 径 下 ,并 在 主 
程序 中 添加 一 个 函数 ,类 似 下 面 这 样 : 

@app. route( '/sz000722') 


def stock(): 
return render_template('sz000722 - 股海 导航 6 A 22 日 沪 深 股 市 公告 提示 .html') 


之 后 重新 运行 Flask 项 目 ,访问 127. 0. 0. 1:5000/sz000722 这 个 地 址 , 即 可 看 到 
sk 已 经 将 该 HTML 展示 为 网 页 ,如 图 13-7 所 示 。 
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股海 导航 6 月 22 日 沪 深 股市 公告 提示 
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图 13-7 使 用 Flask 对 个 股 资讯 进行 展示 
最 后 要 说 的 是 ,新 浪 财 经 除了 包括 沪 深 个 股 的 资讯 页 面 以 外 ,还 包括 美股 、 港 股 的 
资讯 页 面 ( 见 图 13-8)。 如 果 用 户 想 要 对 美股 ` 港 股 的 资讯 进行 抓 取 、 清 洗 和 保存 ,只 需 
将 上 面 代 码 中 对 应 的 页 面 解析 和 元 素 定位 语句 进行 更 改 即 可 ,具体 代码 见 例 13-2。 


公司 研究 | 

+ [财报 ] 百度 8 月 1 日 发 布 2018 年 第 二 季度 财报 占 评论 (9) FARHA | 20184 MB 00:12 
* 瑞 信 将 百度 ADR 评 级 从 跑 赢 大 盘 下 调 至 中 性 回 评论 (12) 新 浪 科技 12018 和 mAy MIA 20:24 
+ [财报 ] 一 张 图 看 懂 百 度 财报 ; 百度 App 日 活跃 用 户 同比 增长 18% 品评 论 (14) PRPS | 2016588 » "E 14:46 
+ [财报 ] 百度 高 管 解读 一 季度 财报 : 信息 流 广告 增长 有 很 大 空间 辐 评论 (49) RANA | 2018558 FE 12:25 
* [财报 ] 百度 高 管 解读 第 四 季 财 报 : 对 自动 驾驶 未 来 一 利 有 信心 mite) 新 浪 科技 12018 年 02f HA 10:41 
+ [财报 ] 百度 第 四 季度 营 收 236 亿 元 净利 润 同比 增 1% 品评 论 (87) 新 浪 科 技 12018 年 029 LA 3 05:37 

AR: 百度 财 测 疲软 悲观 情境 下 目标 价 160 美 元 FARR | 201711" "B 16:09 
* [财报 ] 百度 第 三 季度 营 收 235 亿 元 净利 润 同比 增长 156% NORRIS | 20175194 178 04:39 

第 [页 共 (61] 页 首页 上 页 [下 页 | [未 页 
公司 资讯 | | 
* 留 给 陆 奇 的 工作 机 会 不 多 了 BBZ | 201840; m mA 16:50 
* 工信部 批复 百度 为 .BAIDU" 顶 级 域 域名 注册 管理 机 构 工信部 网 站 12018 年 078 WA 1534 
* 揭秘 联通 新 任 总 经 理 李国华 : 为 何 从 邮政 一 把 手 调任 新 浪 财经 综合 | 2018507 am | 12.33 
“不 只 狂犬 疫 苗 长 生生 物 25 万 支 儿童 疫苗 质量 不 合格 PRBS | 2018077 W 1222 
* 外 卖 代理 商 聚 集 维权 百度 回应 :严重 干扰 公司 正常 秩序 观察 者 网 | 2018 年 07 入 ww ' 12:00 
“从 驿站 到 城市 综合 体 ， 百 度 能 掌 号 给 服务 提供 者 带 来 什么 变化 ? 中 国 新 闻 网 | 2018 年 074 2 11:03 
* 百度 吴 海 锋 : 图 腾 要 从 图 片 切入 并 拓展 至 更 多 数字 版 权 领 域 HDR | 201801 m m 10:57 
* 百度 入 局 区 块 链 版 权 MN? 新 京 报 12018 年 078 I4] b 09:06 
[Nm] Em) [了 页] 


13-8 新 浪 财经 的 美股 资讯 页 面 
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[5|13-2] 抓 取 新 浪 美股 个 股 资讯 。 


import requests 

from bs4 import BeautifulSoup 
from collections import namedtuple 
import time 

import logging 

from pprint import pprint 

import re 

from bs4 import Comment 


logging. basicConfig( level = logging. DEBUG) 


headers = { 
‘User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', 
) 
# 定义 股票 编号 
stock id- 'BIDU' 


def datetime parser(bs): 
datetime = str(bs.find(string- lambda text: isinstance(text, Comment))). 
lstrip('[ published at ').rstrip('] ') 
if not re.match('\d{4} - \d{2} - \d{2}[\S\s] + $ ', datetime): 
datetime = 1991- 01- 01' # 默认 日 期 时 间 


return datetime 


def html saver(page, page bs): 
with open( 'HTMLs/{} - ().html'.format(stock id, page.newstitle), 'wb') as f: 
f.write(page bs.prettify().encode('utf - 8')) 


def main(stocknum - None): 


if stocknum is not None: 
stock num = stocknum 


res-[] 
ht = requests. get( 
‘http: //biz. finance. sina. com. cn/usstock/usstock news. php? pageIndex = 1&symbol = { } 
&ype-1'.format(stock num), 
headers - headers 
). content. decode( 'gb2312 ') 


t 
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stock news page = namedtuple( 'StockNewsPage', ['newstitle', 'newsurl']) 


try: 
page list- [stock news page(newstitle = one. find('a'). text, newsurl = one. find('a') 
['href']) for one in 
BeautifulSoup(ht, 'lxml'). findAll('ul', ('class': 'xb list'])[- 1]. 
findAll('li')] 
except AttributeError as e: 
print('this stock may not exist') 
return None 
pprint(page list) 


for page in page list[:]: 
logging.debug( visiting next page') 
time. sleep(2) + 等 待 两 秒 
ht = requests. get(page. newsurl, headers = headers). content. decode( 'utf - 8') 
bs = BeautifulSoup(ht, 'lxml') 


E 删除 所 有 不 必要 的 标签 
[s.decompose() for s in 

bs('script') * 

bs('noscript') * 

bs('style') * 

bs.findAll('div', ('class': 'top- banner'}) + 
bs.findAll('div', ('class': 'hgimg related']) + 
# 更 多 的 页 面 元 素 清洗 

3e 

bs.findAll('div',('class':'new style article')) 
] 


# 尝试 在 页 面 中 间 做 article - content div 
try: 
bs.find('div', ('class': 'article- content- left'})['class'] = 'article- content' 
except Exception as e: 
bs.find('div', ('class': 'left'))['class'] = ‘article - content' 
finally: 
pass 


html saver(page, bs) 
for one in bs. findAll('a', ('class': 'keyword']): 
one. attrs = {} + 移 除 可 单 击 的 href 


d_res = ( 
'stock': 'us- '+ stock num, 
'title': bs. find('h1'). text, 
‘html': str(bs).replace('\n', ''), 


| 第 13 章 “ 怜 虫 实践 tres rtt (iai) 


fedis: PEA HEAR 


视频 讲解 
在 前 面 对 Scrapy 扑 虫 框架 有 过 简单 的 介绍 ,在 Python 开发 中 ,比较 常见 的 疏 虫 
框架 除了 Scrapy 以 外 ,还 包括 PySpider 和 Gain, 本 章 将 以 这 两 个 候 虫 框架 的 使 用 为 
例 详细 介绍 不 同 候 虫 框架 的 特性 和 开发 。 


14.1 Gain 框架 


Gain 是 一 个 使 用 asyncio, uvloop 和 aiohttp 等 库 实现 的 轻 量 级 Python JE di HE 
架 , 其 候 虫 抓 取 结构 如 图 14-1 所 示 。Gain 基于 的 asyncio 是 Python 3. 4 后 引入 的 标 
准 库 , 主 要 功能 是 支持 异步 的 IO 操作 。 另 外 ,uvloop 是 asyncio 事件 循环 的 替代 ， 
aiohttp 是 基于 asyncio 的 HTTP 工具 ,两 者 结合 能 够 支持 更 高 速 、 高 效 的 网 络 编程 ， 
因此 Gain 的 主要 特征 就 是 轻 量 和 高 速 。 

安装 Gain 仍然 可 以 使 用 pip, 运 行 pip install gain 命令 即 可 , 若 用 户 未 安装 
uvloop ,还 需要 用 pip install uvloop 进行 安装 (uvloop 目前 只 能 在 Linux 平台 上 使 
用 )。 不 过 pypi 上 的 Gain 有 可 能 并 非 最 新 版 本 ,为 此 ,用 户 可 以 前 往 Github 上 Gain 
框架 的 Repository( 地 址 为 “https://github. com/gaojiuli/gain”) ,使 用 Git Clone 下 载 


| $14 ms 


3x. (AIRE 


Save() 


[osi] | Fe 


图 14-1 Gain ffe t Zi Hy 


到 本 地 的 某 一 路 径 ,然后 运行 pip install -e path/to/SomeProject 


14.2 使 用 Gain 做 简单 抓 取 


für 


令 进行 安装 。 


使 用 Gain 编写 疏 虫 程序 ,一 般 是 编写 继承 Spider X AY $r f& d 25. Gain 中 的 


Spider 类 如 下 : 


class Spider: 
start url- "' 
base_url = None 
parsers = [] 
error urls - [] 
urls count- 0 
concurrency = 5 
interval = None # 待 办 事项 :限制 两 个 请 求 之 间 的 间隔 
headers = {} 
proxy = None 
cookie_jar = None 


@classmethod 
def is running(cls): 
is running = False 
for parser in cls.parsers: 


if not parser.pre parse urls.empty() or len(parser.parsing urls) > 0: 


is running = True 
return is running 


@classmethod 
def parse(cls, html): 
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for parser in cls. parsers: 
parser. parse_urls( html, cls.base url) 


@classmethod 

def run(cls): 
logger. info( 'Spider started! ') 
start_time = datetime. now() 
loop = asyncio.get event loop() 


在 Spider 类 的 定义 中 ,run() 是 爬虫 运行 时 的 执行 函数 ,用 户 一 般 需要 自 定义 
start_url, concurrency, parsers, proxy 等 属性 。 这 里 以 抓 取 scrapinghub 的 博客 
Chttps://blog. scrapinghub. com/) 为 例 , 使 用 Gain 框架 编写 出 这 样 的 疏 虫 程序 , 见 
例 14-1。 

【 例 14-1]. 使 用 Gain 抓 取 scrapinghub 的 博客 。 


from gain import Css, Item, Parser, Spider 
import aiofiles 


class Post(Item): 
title = Css('£hs cos wrapper name') 
content 7 Css( '. post - body') 


async def save(self): 
async with aiofiles. open( 'scrapinghub.txt', ‘at ') as f: 
await f. write('{}\n’. format(self. results[ title'])) 


class MySpider(Spider) : 
concurrency = 5 
headers = { 
‘User - Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 13 3) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/67.0. 3396.99 Safari/537.36'} 
start_url = 'https://blog. scrapinghub. com/ ' 
parsers = [Parser( ‘https: //blog. scrapinghub. com/page/\d + /'), 
Parser( ‘https: //blog. scrapinghub. com/\d{4}/\d{2}/\d{2}/[a- 20-9\-]+', 
Post) ] 


MySpider. run() 


在 上 面 的 代码 中 ,aiofiles 是 一 个 支持 异步 文件 IO 的 库 , 该 例 用 它 实 现 了 一 个 
saveO (保存 到 TXT 文件 中 ) 方 法 。 另 外 ,在 Post 类 中 还 使 用 CSS 选择 器 获取 了 网 
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页 的 title( 标 题 ) 和 content I4 2D .. CSS 选择 器 表达 式 可 以 使 用 Chrome 开发 者 工具 
得 到 ,如 图 14-2 所 示 。 


£^ June 07, 2018 & lan Kerins Q 0 Comments 


i 
Á s , Editattribute 
w«div class-"blog-post-wrapper cell-wrapper"s 
iv class-"blog. 


Audits Adblock Plus 


Cut element 
Copy element 


Paste element | 


n id-"hs cos wrapper name" c 
field" data-hs-cos-type-"tex 


cos wrapper type text" style 


nt to Predict Fitbit's Quart — Expand recursively ped Product Data" 
</span> Collapse children 
Ag Scroll into view 


><div class="byline">.</div> 
Y ^ Focus 


><div class="section post-body">~</dij 


图 14-2 ”在 Chrome 中 复制 selector 


MySpider 类 继承 了 Gain 中 的 Spider 类 ,在 这 里 自 定 义 了 headers ,将 UA 信息 
加 入 可 以 避免 基本 的 反 候 虫 机 制 ,concurrency If RA. parsers 则 为 一 个 Parser 类 
的 列表 。 

Parser() 接 收 一 个 正则 表达 式 形式 的 rule( 规 则 ) 作 为 参数 ,如 果 还 传人 了 继承 自 
Item 的 类 作为 参数 , 则 对 满足 当前 rule 的 url 开始 Item 的 定位 和 处 理 ( 例 如 例 14-1 
中 的 save() 方 法 ) ,如果 没有 Item 作为 参数 , 则 对 当前 rule 的 url 进行 follow, HEE ME 
取 url 链接 。 

在 例 14-1 中 ,正则 表达 式 “https://blog. scrapinghub. com/page/\d 十 /” 是 博客 
页 码 的 URL 格式 ,正则 表达 式 “https://blog. scrapinghub. com/\d{4}/\d{2}/\d{2}/ 
[a-z0-9\-] 十 ? 则 是 具体 的 一 篇 博客 文章 的 URL 格式 。 

运行 这 个 程序 ,用 户 能 够 看 到 对 应 的 控制 台 输 出 ,如 图 14-3 所 示 。 

在 本 地 打开 scrapinghub. txt 即 可 看 到 抓 取 下 来 的 文章 网 页 标题 ,如 图 14-4 
所 示 。 

除了 使 用 正则 表达 式 来 匹配 网 页 中 的 URL 以 外 ,Gain 还 提供 了 XPathParser 支 
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Parsed(4/9): https://blog.scrapinghub. com/2017/12/31/looking-back-at-2017 
Parsed(5/9): https://blog. scrapinghub. con/2017/07/@7/scraping-the-stean-gane-store-with-scrapy 

Parsed(6/9): https://blog.scrapinghub. con/2017/01/01/looking-back-at-2016 

Parsed(7/9): https://blog.scrapinghub. con/2017/06/19/do-androids-drean-of-electric-sheep 

Parsed(8/9): https://blog.scrapinghub. con/2017/04/19/deploy-your-scrapy-spiders-from-github 

Parsed(9/9): https://blog. scrapinghub.con/2018/06/19/a-sneak-peek-inside-«hat-hedge-funds-think-of-alternative-financial-data 
Item "Post": 8 

Requests count: 9 

Error count: @ 

Time usage: 0:00: 16.567301 

Spider finish 


图 14-3 {EJH Gain 抓 取 blog. scrapinghub. com 


Looking Back at 2017 
How Data Compliance Companies Are Turning To Web Crawlers To Take Advantage of the GDP| 
A Sneak Peek Inside What Hedge Funds Think of Alternative Financial Data 
Looking Back at 2016 

Scraping the Steam Game Store with Scrapy 

Deploy your Scrapy Spiders from GitHub 

Do Androids Dream of Electric Sheep? 


14-4 抓 取 到 TXT 中 的 文章 标题 
持 XPath 规则 的 页 ,这 里 通过 抓 取 虎 扑 论坛 (网 址 为 “https://bbs. hupu. 
com/”) 来 介绍 这 一 方面 。 在 虎 扑 论坛 的 学 府 路 版 面 (网 址 为 “https://bbs. hupu. 
com/xuefu") 中 ,每 一 个 帖子 元 素 的 XPath 格式 类 似 “//* [ (9 id=" ajaxtable" ]/ 
div[L1]/uMIL2]/divL1]/a” ,要 筛选 出 每 一 个 帖子 ,只 需 用 “* ”匹配 到 所 有 1i 元 素 即 
可 ,如 图 14-5 和 图 14-6 所 示 。 


//*(@id="ajaxtable" ]/div[1]/u1/1i[2]/div[1]/a 


我 关注 的 版 块 管 理 HE» 
BRIERE 学 府 路 soot 


羽毛 球 6 
版 块 介绍 : 求职 升学 、 叶 找 校友 、 校 园 话题 、 高 校 专机， 请 关注 步行 竺 的 学 奉 路 ， 第 一 时 间 推送 学 奉 路 热 由 , 


heuer 版 主 : RERE KEERMVP 东 决 地 板 


球衣 区 60 
影视 区 ez4f 


A7 mh "HG 
步行 街 主干 道 70100 


世界 杯 专区 7508 主题 
体育 场 1681 
[置顶 ] 学 府 路 版 规 2017.6.1 (RIA, BAREK) ， 大 学 专 楼 请 【搜索 】 你 的 大 学 
学 府 路 1750 
版 块 分 类 老 哥 们 ， 我 被 调剂 到 冷门 专业 7 [A 21 
NBA 论 坛 


东南 大 学 到 底 是 什么 水 平 S [. 234] 


图 14-5 虎 扑 论坛 上 的 帖子 元 素 的 XPath 格式 


有 了 上 面 的 观察 ,用 户 便 可 以 使 用 Gain 编写 一 个 抓 取 该 论坛 版 面 首页 所 有 帖子 
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//*[{@id="ajaxtable" }/div(1}/ul/1i[*|] /div(1]/a 


我 关注 的 版 埃 管理 Ux ”步行街 
我 关注 的 版 块 帖子 学 府 路 oss 
BER 
一 BRNE: REA, BRAN, RE, REM, WES TARR, BOM, 
Son eth 版 主 : 交 给 我 吧 KORSURMVP RAE 
球衣 区 00 
Fred =m) we a7) MA | mann 
ETE 7010 
世界 杯 专区 756 zx 
体育 场 1681 a 
(LR) 学 府 吕 版 规 2017.6.1 (MBM, RRMA) ， 大 学 专 楼 请 【搜索 】 你 的 大 学 

SR 1750 
nm BEN, RERNHACSUT [9 21 
Ped 东南 大 学 到 底 是 什么 水 平 [m 234] 
CBA 论坛 

= 在 学 有 路 老 机 引导 下 ，THU 计 算 机 我 来 了 了 [21 
国际 足球 论坛 
中 国足 于 论坛 作为 中 国 高 教 第 三 城 ， 那 么 南京 综合 实力 第 三 的 大 学 是 ? S [@ 2315 ] 


图 14-6 ”匹配 所 有 1i 元 素 
的 标题 信息 的 简单 仆 虫 , 见 例 14-2。 
[514-2] 使 用 Gain 抓 取 论 坛 版 面 首页 所 有 帖子 的 标题 信息 。 


from gain import Css, Item, XPathParser, Spider 


class Post(Item): 
title = Css('£ j data!) 


async def save(self): 
print(self.title) 


class MySpider(Spider): 
start url- 'https://bbs. hupu. com/xuefu' 


concurrency = 5 


headers = { 'User - Agent': ‘Google Spider') 
parsers = [ 

XPathParser( '// * [@id = "ajaxtable" ]/div[1]/ul/li[ * ]/div[1]/a/@href', Post) 
] 


MySpider. run() 
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其 中 ,Post 类 中 的 title = CssC £j. data KA 5] 8E— 1 FT R ,在 save() 方 
法 中 仅仅 打印 该 标题 。 在 MySpider 类 中 使 用 了 Google Spider 作为 UA 信息 ， 
parsers 列表 中 为 一 个 XPathParser 的 实例 ,这 个 parser 将 匹配 start. url 对 应 页 面 中 
所 有 满足 其 XPath 的 元 素 , 并 对 其 调用 Post 进行 Item 的 获取 。 
运行 上 面 的 代码 ,用 户 将 能 够 看 到 对 应 的 输出 ( 见 图 14-7) ,表明 抓 取 成 功 。Gain 
是 一 个 仍 在 开发 中 的 框架 ,灵活 性 和 扩展 性 都 很 高 ,用 户 甚 至 可 以 自己 改写 其 代 
码 ,编写 自己 喜欢 的 框架 。 最 后 要 说 明 的 是 ,Gain 的 使 用 模式 与 Scrapy 类 似 , 但 作为 
轻 量 疏 虫 ,它们 也 有 不 少 差异 , 想 系 统 学 习 疏 虫 框架 的 逻辑 和 结构 的 读者 应 该 以 
Scrapy 的 代码 作为 主要 的 参考 资料 。 


eee A 
风 不 起 ， 拖 大 家 后 腿 了 。 考 上 了 一 所 2110 大 学 
18:07:20 23:28:58] Parsed(5/41): https: hupu.. html 
[2018:07:20 23:28:58] Parsed(6/41): https://bbs.hupu.com/22960192.html 
问题 


dL 


[2018:07:20 23:28:58] RICETTE 
PAMARTA? 求 各 位 jr 指 
小 弟 求 问 TREN LATIS 
[2018:07:20 23:28:59] Es DLE https://bbs.hupu.com/22965730. html 
Ie. 但 对 专业 不 太 了 解 ， 求 j rs 

018:07:20 23:28:59] Persed 13/41): https://bbs.hupu.com/22966017.html 
(2018: 07:20 23:28:59] Parsed(14/41): https://bbs. hupu.com/22964809.html 
EHN. KKZRUBEUBIEA AE wb 9211057 


图 14-7 基于 Gain ff fe h E 6 $z WHR HM Ht P0 fi th 


14.3 PySpider 框架 


根据 官方 文档 的 说 明 ,PySpider 是 一 个 支持 Web UI、JS 2l ft OT. d £& fe fe Nt. 
优先 级 抓 取 .Docker ME HY ME HER. nT DUE th AEE AR EE EA. SUE 
PySpider 使 用 pip install pyspider 命令 即 可 ,如 果 想 使 用 JS 页 面 解析 ,需要 下 载 
PhantomJS 并 完成 相关 配置 。 另 外 ,PySpider 使 用 到 很 多 依赖 ,在 安装 时 如 果 出 现 依 
赖 环境 缺失 的 问题 ,安装 相应 的 包 即 可 。 在 安装 成 功 后 ,使 用 pyspider all 命令 激活 

PySpider 的 所 有 组 件 , 如 图 14-8 所 示 。 
之 后 访问 http://localhost:5000/ 即 可 看 到 PySpider 的 Web UI 页面 ,如 图 14-9 所 


| Ex RRR d 


amd". Cl Sie sie pyspider all 

phantomjs feteher running on port 25555 

[I 18*72* result worker:49] result worker starting... 
[I 18e processor:211] processor starting.. 

tornado fetcher:638] fetcher starting... 
scheduler:647] scheduler starting... 
scheduler:782] scheduler.xmlrpc listening on 127.0 
scheduler:126] project tb crawl updated, status:S' 


False, x tasks 
EI ift. 17: 
Dhania 


scheduler:126] project tb_crawl1 updated, status:STOP, paused 


图 14-8 激活 PySpider 


示 ( 由 于 刚刚 安装 ,PySpider 不 会 有 项 目 , 图 14-9 为 已 经 开发 过 一 些 疏 虫 的 项 目 列表 ) 。 


pyspider dashboard 
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E3 
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14-9 PySpider 的 Web UI 管理 页 面 


在 Web UI 中 单 击 Create 按钮 即 可 新 建 一 个 息 虫 项 目 , 填 写 Project Name 和 
Start URL( 也 可 暂时 不 填 ) 之 后 PySpider 将 会 提供 WebDAV 模式 页 面 , 右 侧 为 编辑 


器 区 域 , 左 侧 为 实时 运行 信息 与 追踪 区 域 , 如 图 14-10 所 示 。 


apecae Li 
eif erai (each. att: ibackeself detail page) 


22 teonfigiprioriey=2) 
23 def detail page(self, response]: 


u return ( 
25 Fari": response.uri, 
E “title's response. doc('title!.text(], 


5 n 


Documentation | WebDAV Mode T 


14-10 PySpider 的 Web 编辑 器 页 面 


PySpider 在 这 个 名 为 “1? 的 项 目 中 自动 生成 的 代码 如 下 : 
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from pyspider.libs.base handler import * 


class Handler(BaseHandler): 
crawl config={ 
} 


@every(minutes = 24 * 60) 
def on_start(self): 
self.crawl(' START URL ', callback = self. index page) 


@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in response. doc( 'a[ href ^ = "http" ] ') . items(): 
self.crawl(each.attr.href, callback = self.detail page) 


(3 config(priority- 2) 
def detail page(self, response): 
return { 
"url": response.url, 
"title": response.doc( title').text(), 


在 上 面 的 代码 中 ,on_start() 为 主要 的 执行 函数 ,在 Web 管理 页 面 中 单 击 Run 按 
钮 后 将 会 执行 该 函数 。 其 中 的 self. crawl() 方 法 将 会 启动 一 个 新 的 抓 取 任务 。 

index_page() 方 法 接受 一 个 Response 对 象 ,可 以 被 看 成 解析 函数 。response 
. doc 是 基于 pyquery 的 页 面 元 素 定 位 方式 。detail_page() 则 是 另 一 个 解析 函数 , 返 
回 一 个 字典 形式 的 数据 结构 作为 一 次 抓 取 结果 ,这 个 数据 默认 会 被 添加 到 resultdb 
的 数据 库 。 

另外 ,用 户 在 上 面 的 代码 中 还 看 到 了 一 些 装饰 器 语法 ,其 中 ,@every(minutes 一 
24 * 60) 将 会 令 on_start() 方 法 以 一 天 为 周期 执行 ; @config(age 一 10 * 24 * 60 * 
60) 将 会 使 scheduler( 调 度 器 ) 将 请 求 的 过 期 时 间 (age) 设 为 10X24X60X60 秒 , 即 10 
K; @config(priority 一 2) 为 抓 取 优先 级 设置 ,以 类 似 P0、P1、P2 这 样 的 优先 级 排列 。 

单 击 左 侧 的 run 按钮 ,可 以 实时 调试 程序 ,并 对 抓 取 链接 和 结果 进行 跟踪 。 在 调 
试 完毕 后 单 击 右 侧 的 save 按钮 , 即 可 保存 项 目 代码 。 之 后 , 回 到 Web UI 首 页 将 项 目 
状态 改 为 RUNNING, 并 单 击 Run 按钮 ,这 样 便 可 以 正式 开始 这 个 和 疏 虫 了 ,如 图 14-11 
所 示 。 

如 果 在 WebDAV 模式 下 单 击 run 按钮 运行 代码 进行 调试 时 遇 到 了 类 似 
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图 14-11 Web UI 首 页 的 项 目 操作 


“Exception; cannot run the event loop while another loop is running” 的 报错 信息 ,可 以 尝 


试 运行 pip3 install tornado— —4. 5. 3 命令 安装 特定 版 本 的 tornado 来 解决 这 个 问题 。 


14.4 使 用 PySpider 进行 抓 取 


XT — 7 8 db EE ffi zi ,最 核心 的 语句 可 能 就 是 元 素 的 定位 。 在 PySpider 中 主 
要 使 用 CSS 选择 器 作为 主要 的 元 素 定位 方式 ,为 了 编写 代码 方便 ,在 PySpider 中 还 
包括 CSS 选择 器 助手 的 功能 ,开启 该 功能 后 , 单 击 页 面 上 的 元 素 即 可 高 亮 显示 并 生成 其 
CSS 选择 表达 式 ,如 图 14-12 所 示 , 单 击 相 应 的 按钮 可 以 将 表达 式 粘 贴 到 当前 代码 段 。 


pyspider > HUPUI 
E :| 
"fetch": ( x 
"fetch type": "js" 4 
L 54 
"process": ( 6 
"callback": "index page" 7 
+ 8 
"project": "HUPUL", 9 
"schedule": ( 10 
"age": 864000 11 
de 12 
"taskid": "eael9a86d214850d2ela60c8b63a3be5", 13 
"url": "https://bbs.hupu.com/xuefu" 14 
! < | > | status: SUCCESS 25 
html body div div div div div ul li data-42 © | >| 17 
综合 体育 18 
为 以 后 想 做 金融 的 同学 们 答疑 S [9h 23...38 ] 19 
彩票 中 心 20 
街 上 有 东南 的 学 长 学 姐 吗 ? 局 [m2] p 
22 
站 务 管理 华工 这 个 通知 书 也 忒 丑 了 点 吧 9 [23] ^ 
25 
EB sama 26 
27 
28 ] 
29 
30 
31 
二 


图 14-12 PySpider 的 CSS 选择 器 助手 
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当然 ,用 户 可 以 使 用 Chrome 的 开发 者 工具 作为 更 准确 的 CSS 选择 器 助手 ,在 
14.2 节 关 于 Gain 疏 虫 编写 的 内 容 中 已 经 介绍 了 这 个 功能 。 

在 了 解 了 PySpider 的 基本 操作 以 后 , 接 下 来 着 手 编写 自己 的 第 一 个 PySpider JE 
虫 。 这 里 将 豆瓣 读书 首页 (https://book. douban. com/) 定 为 抓 取 目 标 , 该 页 面 大 致 
如 图 14-13 所 示 。 
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图 14-13 ”豆瓣 读书 首页 
分 析 这 个 页 面 ,不 难看 出 豆瓣 的 书籍 页 面 的 URL 格式 为 “https://book. 
douban. com/subject/id/”, 其 中 id 为 一 串 数字 。 单 击 某 一 书籍 链接 ,进入 其 页 面 , 通 
过 Chrome 开发 者 工具 可 以 得 到 书籍 关键 信息 对 应 的 一 些 CSS selector, 例 如 作者 信 
息 对 应 的 CSS selector 为 “# info > span: nth-child(1) > a”, 书 籍 评 分 对 应 “# interest_ 
sectl > div > div. rating_self. clearfix > strong”. 
SEP E if [5] OY Pr i S c2 HY RH EM: 


from pyspider.libs.base handler import * 
import re 


class Handler(BaseHandler): 
crawl config- ( 


} 


@every(minutes = 24 * 60) 
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def on start(self): 
self.crawl('https://book. douban. com/', callback = self.index page) 


@config(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in response. doc( 'a[href ^ - "http" ] '). items(): 
if re.match("https://book. douban. com/subject/Ad + /AS * ", each.attr.href, re.U): 
self.crawl(each.attr.href, callback = self.detail page) 


(3 config(priority- 2) 
def detail page(self, response): 
review url- response.doc( 
'# content > div > div. article > div.related info > div. mod - hd > h2 > span. pl > a'). 
attr. href 


return { 


url": response. url, 

"title": response. doc( 'title').text(), 

"author": response. doc('# info span:nth- child(1) > a').text(), 

"rating": response. doc(' # interest sectl > div > div. rating self. clearfix > strong') 
.text(), 

"reviews": review url, 


} 


非常 明显 ,index_page() 是 对 读书 首页 的 处 理 函 数 , 而 detail_page() 是 对 书籍 详 
情 页 面 的 处 理 函 数 。 在 index_page() 中 还 使 用 了 一 次 re. match() 方 法 ,通过 正则 表 
达 式 在 豆瓣 读书 首页 中 筛选 书籍 页 面 对 应 的 URL. 

在 编辑 器 中 编写 上 面 的 代码 后 就 可 以 进行 调试 运行 了 , 单 击 run 按钮 ,可 以 看 到 
“follows” 上 出 现 了 “1” 的 数字 ,切换 到 follows 面板 ,跟踪 URL ,如 图 14-14 所 示 。 


pyspider > douban1 
« | run | 
"process": ( 
"callback": "on start" 
Y 
"project": "doubanl", 
"taskid": "data:,on start", 
"url": "data:,on start" 
? < | > | status: SUCCESS 


index_page > https://book.douban.com/ ~ 3 


图 14-14 follows 面板 的 情况 


之 后 单 击 绿色 播放 按钮 ,跟踪 URL 并 进入 下 一 级 ,用 户 会 看 到 程序 将 书籍 页 面 
URL 成 功 地 筛选 出 来 ,如 图 14-15 所 示 。 
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pyspider > douban1 
{ | run | 1 
"fetch": (), 2 
"process": ( 3 
"callback": "index page" 4 
) 5 
"project" : "doubanl", 6 
"schedule": ( 7 
"age": 864000 8 
Y 9 
"taskid": "a7ceef4d4f8£0246120c83852172d2b6", 10 
"url": "https://book.douban.com/" 11 
} < | > | status: SUCCESS [ips 
detail page > https://book.douban.com/subject/30163860/?icn=index-editionrecommend *"* 14 
15 
detail page > https://book.douban.com/subject/3018305 1/?icn=index-editionrecommend 16 
17 
detail page > https://book.douban.com/subject/30264226/?icn=index-editionrecommend 18 
19 
detail page > https://book.douban.com/subject/30262617/?icn=index-editionrecommend 20 
detail page > https://book.douban.com/subject/30216471/?icn=index-editionrecommend *** 21 
22 
detail page > https://book.douban.com/subject/27197830/?icn=index-latestbook-subject 23 
24 
detail page > https://book.douban.com/subject/27156017/?icn=index-latestbook-subject 25 
detail page > https://book.douban.com/subject/30159797/?icn=index-latestbook-subject — *** 26 
27 
detail page > https://book.douban.com/subject/30265858/?icn=index-latestbook-subject 28 
29 
detail page > https://book.douban.com/subject/3022625 1/?icn=index-latestbook-subject 30 
detail page > https://book.douban.com/subject/30266382/?icn=index-latestbook-subject 31 
32 
detail page > https://book.douban.com/subject/27199016/?icn=index-latestbook-subject 33 
34 
detail_page > htt enable css selector helper BM messages 35 


图 14-15 单 击 绿色 播放 按钮 后 的 URL 筛选 结果 


进入 某 一 个 书籍 详情 链接 ( 单 击 右 侧 类 似 播放 的 按钮 ), 可 以 看 到 该 书籍 的 详情 
抓 取 结果 ,如 图 14-16 所 示 。 


"project": "doubanl", 
"schedule": ( 
"priority": 2 
} 
"taskid": "d1049ba2812379c95d4b3ebd4e7372e4", 
"url": "https://book.douban.com/subject/30163860/?icn-index-editionrecommend" 
< | > | status: SUCCESS 


* autho: 


‘rating’ r 

'reviews': 'https://book.douban.com/subject/30163860/comments/', 

‘title’: “ 绿 毛 水 怪 (EHE), 

'url': 'https://book.douban.com/subject/30163860/2icn-index-editionrecommend') 


图 14-16 某 书 籍 详情 页 面 的 信息 抓 取 结 果 
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Results 按钮 便 能 够 看 到 批量 抓 取 的 结果 ,如 图 14-17 所 示 。 
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图 14-17 Results 页 面 的 书籍 数据 


单 击 右上 角 的 按钮 即 可 下 载 相 应 的 
其 效果 如 图 14-18 所 示 o 


抓 取 结果 到 本 地 文件 (例如 单 击 CSV 按钮 )， 
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图 14-18. 本 地 CSV 文件 中 的 抓 取 结果 


虽然 抓 取 豆 瓣 读 书 首页 的 怜 虫 程序 
的 编写 和 使 用 有 一 个 基本 的 了 解 。 其 实 
造成 一 些 麻烦 ,幸运 的 是 ,PySpider 提供 


相对 简单 ,但 足以 帮助 用 户 对 PySpider 程序 
,JavaScript 和 AJAX 技术 将 会 给 用 户 的 抓 取 
了 对 PhantomJS 的 整合 ,开启 PhantomJS fk 


务 后 (如 果 本 地 机 器 未 安装 ,需要 先进 行 安装 ) ,用 户 可 以 在 self. crawl() 方 法 中 添加 
"fetch type— "js"" 这 样 的 参数 ,从 而 实现 对 动态 AJAX 页 面 内 容 的 抓 取 , 让 疏 虫 程序 


的 抓 取 实现 “所 见 即 所 得 ”。 


在 14.2 节 编 写 了 针对 虎 扑 论坛 版 块 帖 子 的 候 虫 ,但 当时 的 候 虫 程序 较为 简单 ， 
只 能 实现 对 首页 帖子 的 抓 取 ,无 法 遍历 整个 论坛 版 面 ( 即 无 法 实现 抓 取 下 一 页 的 操 
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作 ) ,而 且 鉴 于 虎 扑 论坛 版 面 的 页 码 元 素 使 用 了 JavaScript 来 动态 实现 (如 图 14-19 所 
示 ,该 图 为 论坛 版 面 的 HTML 源 代码 ) ,因此 无 法 用 普通 的 request( 请 求 ) 获 取 其 下 
一 页 地 址 。 


} 

$(".for-list li").mouseover(function(event) { 
S(this).find(".caozhuo").css("visibility","visible"); 

}) ,mouseout(function(){ 
S(this).find(".caozhuo").css("visibility","hidden"); 


H; 
if(1>1){ 
se. ").css("margin-left" ,"-185px") ; 


} 
if(1>=5){ 
$(". downpage") . css("margin-left","—194px") ; 


$(‘.page').createPage(function(n){ 


pageCount :maxpage,// 总 页 码 ,默认 1 
current:1,// 当 前 页 码 

namesharf+'—',//tnic 

hname: ' xuefu* , 
showNear:1,// 显 示 当 前 页 码 前 多 少 页 和 后 多 少 页 ， 默 认 2 
pageSwap:true, 

align:'right', 
showSumNum:false,// 是 否 显示 总 页 码 

maxpage:100, 

is poslist:l, 

is read: 


n 


(^ nextPaoe") css (4. 
图 14-19 论坛 版 面 的 HTML 源 代码 
不 过 ,借助 PySpider 能 够 轻松 地 解决 这 一 点 ,做 到 对 论坛 版 面 的 全 面 抓 取 , 程 序 
如 下 : 


from pyspider. libs. base_handler import * 
import re 


class Handler(BaseHandler): 
crawl config- { 
) 


@every(minutes = 24 * 60) 
def on start(self): 
self.crawl('https://bbs.hupu.com/xuefu', fetch type = 'js', callback = self.index page) 


()config(age- 10 * 24 * 60 * 60) 
def index page(self, response): 
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for each in response. doc( 'a[href ^ = http] '). items(): 
url = each. attr. href 
if re.match(r'http\S * ://bbs. hupu. com/\d + .html $ ', url): 
self.crawl(url, fetch type- 'js', callback = self.detail page) 


next page url- response.doc( 
' # container > div > div. bbsHotPit > div. showpage > div. page. downpage > div > a. 
nextPage'). attr. href 


if int(next page url[ - 1]) > 30: 
raise ValueError 


self.crawl(next page url, 
fetch type- 'js', 
callback = self. index page) 


(3 config(priority = 2) 
def detail page(self, response): 
return { 
"url": response.url, 
"title": response.doc('# j data').text(), 
) 


在 index_page() 中 ,通过 CSS selector 获得 了 next_page_url, 并 将 其 作为 参数 ， 
用 self. crawl() 再 创建 一 次 index_page() 抓 取 任务 ,这 将 实现 持续 地 对 当前 页 的 “下 
一 页 ”的 抓 取 。 对 于 符合 帖子 URL 格式 的 链接 , 则 调用 detail. page ) 方 法 ,获取 其 
URL 和 帖子 标题 信息 。 同 时 ,利用 对 URL 最 后 一 个 字符 (代表 页 码 数 ) 的 判断 来 跳 
出 抓 取 循环 ,本 例 中 若 抓 取 超 过 第 30 页 则 结束 。 
运行 上 面 的 代码 ,用户 可 以 在 Results 页 面 中 看 到 抓 取 结 果 , 如 图 14-20 所 示 ,可 
见 抓 取 成 功 。 
实际 上 ,PySpider 中 整合 的 PhantomJS 服务 还 可 以 实现 对 抓 取 的 页 面 执行 JS 脚 
本 (例如 “加 载 更 多 ”) 等 效果 ,在 其 他 方面 ,PySpider 支持 MySQL 保存 抓 取 结果 , 支 
持 多 线程 抓 取 , 这 些 特性 使 它 能 够 满足 用 户 很 多 网 页 抓 取 程序 的 需求 ,正如 读者 所 
见 ,PySpider 中 的 Web UI 服务 为 其 增色 不 少 ,从 某 种 意义 上 说 ,这 使 抓 取 程序 的 开 
发 变 得 更 加 高 效 且 直观 。 
在 Python 开发 社区 中 ,除了 Scrapy、PySpider 和 Gain 以 外 ,一 些 略 微 “ 小 众 ” 的 
扑 虫 框架 也 值得 用 户 关注 ,例如 Newspaper( 见 图 14-21)、Sasila 等 ,有 兴趣 的 读者 可 
以 深入 学 习 。 


SA 
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14-20 Results 页 面 中 帖子 的 抓 取 结果 


Newspaper3k: Article scraping & curation 
pypl package [O26 
Inspired by requests for its simplicity and powered by lxml for its speed: 


"Newspaper is an amazing python library for extracting & curating articles." — tweeted by Kenneth Reitz, Author of 
requests 


"Newspaper delivers Instapaper style article extraction." -- The Changelog 


Newspaper is a Python3 library! Or, view our deprecated and buggy Python2 branch 


A Glance: 


»»» from newspaper import Article 


>>> url = 'http://fox13now. com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/* 
>>> article = Article(url) 


>>> article.download() 


>>> article.html 
'«!DOCTYPE HTML»«html itemscope itemtype="htt] 


图 14-21 Newspaper 框架 的 介绍 


附录 A 部 分 介绍 一 些 正文 常常 涉及 但 没有 进行 详细 介绍 的 内 容 ,包括 Python if 
言 的 特性 .正则 表达 式 和 requests 库 等 。 


A.1 Python 中 的 一 些 重要 概念 


在 第 1 章 中 曾 系统 性 地 说 明了 Python 的 基础 语法 ,但 作为 一 种 应 用 广泛 的 程序 
设计 语言 ,Python 中 还 有 着 很 多 重要 的 概念 和 精妙 的 设计 ,其 中 很 多 知识 在 第 1 章 
中 未 引入 ,本 部 分 就 作为 补充 ,介绍 Python 语言 中 的 一 些 重要 概念 。 


A.1.1  * args 与 *#kwargs 的 使 用 


在 函数 定义 中 ,用 户 经 常会 遇 到 * args 5j ** kwargs, 它 们 允许 用 户 将 不 定数 量 
的 参数 传递 到 一 个 函数 中 。 其 中 , x args 是 用 来 发 送 一 个 非 键 值 对 的 不 定数 量 的 参 
数列 表 给 一 个 函数 ,例如 : 


def func(f arg, * argv): 
print("first normal arg:", f arg) 
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for arg in argv: 
print("arg from * argv:", arg) 


func( 'arg1', 'arg2', 'arg3', 'arg4') 


上 面 代码 的 输出 结果 为 : 


first normal arg: argl 

another arg through * argv: arg2 
another arg through * argv: arg3 
another arg through * argv: arg4 


** kwargs 则 允许 用 户 将 不 定 长 度 的 键 值 对 作为 参数 传递 给 一 个 函数 ,例如 : 


def func( ** kwargs): 
for key, value in kwargs. items(): 
print("{0}:\t{1}". format(key, value)) 


func(argl = 'Jack') 


这 段 代码 的 输出 为 : 
argl :Jack 


使 用 * args 和 ex kwargs 调用 函数 也 很 简单 ,通过 下 面 的 示例 观察 : 


def func(argl, arg2, arg3): 
print("arg1:\t", argl) 
print("arg2:\t", arg2) 
print("arg3:\t", arg3) 


args = ( 'two args',1,2) 
func( * args) 


kwargs = { 'arg3':3, 'arg2': two', argl':' — '] 
func( ** kwargs) 


输出 为 : 


argl: two args 
arg2: 1 

arg3: 2 

argl: — 
arg2: two 


| s^ Get) 


A.1.2 global 关键 词 


在 用 global 关键 词 声明 变量 后 ,用 户 就 可 以 在 函数 以 外 的 区 域 访问 该 变量 ,但 是 
这 样 会 将 多 余 的 变量 引入 全 局 作用 域 , 例 如 : 


global 关键 词 可 以 用 来 “返回 "多 个 变量 结果 ,例如 : 


但 这 样 实在 不 是 好 的 做 法 ,为 了 返回 多 个 结果 ,直接 用 去 号 分 隔 变量 名 即 可 : 
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return name, age 


name, age- return mult() 
print(name) 
print(age) 


两 种 做 法 的 输出 一 致 , 均 为 “Mike 18”, 但 很 显然 ,用 户 应 该 采取 后 者 的 写法 。 
A.1.3 enumerate 枚 举 


枚 举 看 似 是 一 个 使 用 频率 不 很 高 的 关键 词 ,但 其 实 如果 灵 活 使 用 ,会 使 得 代码 简 
洁 、 高 效 。 举 一 个 最 简单 的 例子 ,在 Python 中 如 何 输出 一 个 数组 中 满足 某 一 条 件 的 
所 有 元 素 及 其 索引 ? 例如 要 获得 list 中 的 所 有 偶数 元 素 和 索引 ,可 以 这 样 编写 : 

import numpy 


11 = numpy. random. randint(0, 30, 10) 
print(11) 


for i in range(1en(11)): 
if li[i] % 22-20: 
print(i, 11[i]) 


但 是 这 样 未 免 烦 琐 , 不 如 直接 使 用 枚 举 : 


import numpy 
11 = numpy. random. randint(0,30,10) 
print(11) 


for index, value in enumerate(11): 
if value % 2==0: 
print(index, value) 
通过 这 段 代 码 enumerate 关键 词 的 意义 也 就 很 明显 了 ,对 于 一 个 可 迭代 的 (可 遍 
历 ) 对 象 (例如 列表 FFF E) , enumerate 将 其 组 成 一 个 索引 序列 ,利用 它 可 以 同时 获 
得 索引 和 值 。 


A.1.4 迭代 器 与 生成 器 


迭代 器 和 生成 器 一 直 是 Python 中 的 重要 概念 。 简 单 地 说 ,迭代 器 是 一 个 可 以 遍 
历 容器 (例如 列表 或 者 元 组 ) 的 对 象 。 能 够 提供 迭代 器 的 就 叫 作 可 迭代 对 象 , 可 迭代 
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代 对 象 ) 的 迭代 器 。 与 可 迭代 对 象 的 特征 对 应 ,迭代 器 拥有 一 个 next()_ 方 法 。 


1=[1,2,3] # 可 选 代 对 象 
让 = iter(1) # kita 
print (next (it) ) # 输出 : 1 


生成 器 是 一 种 特殊 的 迭代 器 ,特殊 就 在 于 用 户 只 能 对 其 迭代 一 次 。 因 为 作为 一 
个 生成 器 , 它 没有 把 所 有 的 值 保存 在 内 存 中 ,而 是 在 运行 时 再 “ 现 做 现 卖 ”"。 这 正 是 生 
成 器 的 优点 , 它 无 须 将 对 象 的 所 有 元 素 都 放 入 内 存 才 开始 操作 。 这 个 特点 使 得 它 特 
别 适 用 于 遍历 一 些 巨大 的 序列 对 象 ,例如 大 文件 ,大 集合 ,大 字典 等 。 它 在 性 能 上 有 
一 定 的 优势 。 

一 般 来 说 ,生成 器 是 以 函数 来 实现 的 ,不 过 它们 并 不 是 "return ”一 个 值 ,而 是 
“yield” 一 个 值 。 比 如 这 样 : 


def generator function(): 
for i in range(10) : 
yield i 


for item in generator function(): 
print(item) 


生成 器 也 通过 _next() 方法 来 使 用 ,比如 下 面 的 代码 : 


1=[i for i in range(10)] 
g= (i for i in range(10)) 
print(type(1)) 
print(type(g)) 
print(next(g)) 
print(next(g)) 


输出 为 : 


<class list? 
«class 'generator^ 
0 

1 


当然 , 除 此 之 外 ,在 面向 对 象 编程 .网 络 编程 、 并 发 编程 方面 Python 还 有 很 多 重 
要 的 概念 (例如 十 分 著名 的 协 程 ), 但 掌握 这 些 已 经 足以 帮助 读者 跨 进 Python 的 大 
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门 。 接 下 来 介绍 Python 中 的 一 些 常 用 模块 ,熟悉 这 些 库 ( 尤 其 是 标准 库 ) 的 使 用 将 大 
大 提高 用 户 应 用 Python 的 能 力 。 


A.2 Python 中 的 常用 模块 


Python 语言 被 称 为 “ 自 带电 池 ” 的 语言 ,其 含义 就 是 Python 拥有 大 量 含有 有 用 
模块 的 库 , 有 时 候 也 叫 * 开 箱 即 用 ”。 在 很 多 情况 下 ,用 户 遇 到 的 需求 完全 可 以 用 
Python 内 置 的 标准 库 模 块 来 完成 。 在 前 文中 介绍 文本 处 理 ` 数 据 分 析 等 主题 时 已 经 
涉及 很 多 具有 针对 性 的 库 ( 大 多 数 是 第 三 方 库 ), 这 里 再 介绍 一 些 Python 中 十 分 常用 
的 重要 模块 ( 见 表 A-1 ,包括 但 不 限于 标准 库 ) ,对 每 一 个 模块 着 重 介绍 其 基础 用 法 。 


表 A-1 Python 中 的 一 些 常用 模块 


功能 领域 库 /模块 名 称 

系统 相关 
sys 

特殊 数据 和 对 象 collections 
threading 

多 线程 multiprocessing 
queue 

实用 工具 mdp 
itertools 

序列 化 pickle 

时 间 与 日 期 timeit 
arrow 

A.2.1 collections 


collections 是 一 个 包含 特殊 数据 容器 的 模块 。 在 Python 中 用 户 会 用 到 4 种 基本 
的 数据 结构 一 一 list\tuple dict\set, 即 列表 、 元 组 、. 字 典 和 集合 。 不 过 ,在 面 对 一 些 较 
为 复杂 的 应 用 场景 时 ,这 些 简单 的 数据 类 型 明显 过 于 单一 了 。collections 为 开发 者 提 


供 了 如 下 有 用 的 数据 类 型 。 


* namedtuple: 对 tuple 的 各 个 部 分 进行 命名 。 


* deque: 双 端 队列 。 
。 Counter: 计数 器 。 


。 OrderedDict: 有 序 字 典 。 
* defaultdict: 带 默认 值 的 字典 。 


1. namedtuple 
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一 个 元 组 (tuple) 可 以 被 视 为 一 个 不 可 修改 的 列表 (list) ,可 供 存储 数据 的 一 个 序 


列 。namedtuple 这 个 名 字 听 起 来 就 是 “命名 了 的 元 组 ”, 实 际 上 , 它 把 元 组 变 成 一 个 类 
似 字 典 的 容器 ,用 户 不 必 再 使 用 整数 索引 (index) 来 访问 一 个 namedtuple 的 数据 。 当 
然 , 和 元 组 一 样 ,namedtuple 也 是 不 可 变 的 。 


一 个 命名 元 组 Cnamedtuple) 的 创建 需要 有 两 个 必需 的 参数 ,分 别 是 元 组 的 名 称 


和 字段 名 称 。 例 如 : 


from collections import namedtuple 


CityT = namedtuple( 'City', 'name province nation') 
ctl = CityT(name = 'Beijing', province = 'Beijing',nation- 'China') 


print(cti) 

E 使 用 字段 名 访问 

print(ct1. name) 

Ë 也 可 以 使 用 “传统 "的 整数 序列 去 访问 
Print(ct1[0]) 

E 获得 其 全 部 字段 名 

print(ctl. fields) 


上 面 代码 的 输出 为 : 

City(name = 'Beijing', province = 'Beijing', nation- 'China') 
Beijing 

Beijing 


('name', 'province', 'nation') 
用 户 还 可 以 直接 将 一 个 命名 元 组 转化 为 一 个 字典 : 


dt1 = ct1. asdict() 
print(dti) 


输出 为 : 


OrderedDict([('name', 'Beijing'), ('province', 'Beijing'), ("nation', 'China')]) 


B 
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最 后 ,namedtuple 仍然 是 一 个 元 组 ,所 以 更 改 其 字段 (属性 值 ) 也 是 不 可 以 的 ， 
例如 : 


ct1. name= 'Shanghai' 


会 出 现 异常 *AttributeError: can't set attribute”. 
2. defaultdict 


defaultdict(default_factory) 在 普通 的 dict 之 上 添加 了 default_factory, 这 样 一 
来 , 当 key 不 存在 时 就 会 自动 生成 相应 类 型 的 value,default_factory 参数 可 以 是 list、 
set vint 等 各 种 合法 类 型 。 例 如 : 


from collections import defaultdict 


Locations = ( 
("Mike', 'Maryland'), 
('Jane', Virginia'), 
(‘Freddy', "Michigan'), 
('Allen', 'California'), 
(‘Allen', 'Ohio'), 
(‘Jane', 'Rhode Island’), 

) 

locations_dd = defaultdict(list) 

for name, state in Locations: 


locations_dd[ name]. append( state) 
print (locations_dd) 


输出 为 : 


defaultdict(« class 'list>, {Mike': [Maryland'], Jane’: [ Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio']]) 


如 果 将 上 述 代码 变 为 这 样 (访问 一 个 不 存在 的 键 ) : 


from collections import defaultdict 


Locations = ( 
(‘Mike', 'Maryland'), 
('Jane', 'Virginia'), 


o 


("Freddy', 'Michigan'), 

('Allen', 'California'), 

('Allen', 'Ohio'), 

('Jane', ‘Rhode Island’), 
) 


locations_dd = defaultdict(list) 

for name, state in Locations: 
locations_dd[ name]. append( state) 

print(locations_dd) 

print(locations dd[ 'Ethan']) 

print(locations dd) 


输 ! 1 是 : 


defaultdict(« class 'list>, ('Mike': [Maryland'], Jane’: [ Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio']]) 

[] 

defaultdict(<class 'list>, ('Mike': ['Maryland'], Jane’: [ Virginia', 'Rhode Island'], 'Freddy 
': ['Michigan'], 'Allen': ['California', 'Ohio'], 'Ethan': []]) 


注意 ,在 程序 运行 中 未 出 现 异常 , 且 最 终 Ethan 键 已 经 被 置 为 默认 值 。 
3. OrderedDict 


在 某 些 时 候 用 户 需 要 保持 字典 的 有 序 性 (原生 的 字典 是 无 序 的 ), 这 个 时 候 可 以 
使 用 OrderedDict 类 型 。 有 序 字 典 最 常见 的 用 法 如 下 : 


from collections import OrderedDict 


dt = { 'Beijing': 5, 'Shanghai': 2 ，'Chongqing': 1, 'Zhengzhou': 4 } 
OD = OrderedDict(sorted(dt. items(), key = lambda dt: dt[1], reverse = True) ) 

# 按照 城市 对 应 的 数值 降序 排序 
print(OD) 
# 输出 : OrderedDict([('Beijing', 5), ('Zhengzhou', 4), ('Shanghai', 2), ('Chongging', 
1)]) 


OD = OrderedDict(sorted(dt. items(), key = lambda dt: dt[0])) + 按照 城市 首 字母 的 英文 顺序 
# HEF „IRU reverse = False 

print(OD) 

# 输出 : OrderedDict([('Beijing', 5), ('Chongging', 1), ('Shanghai', 2), ('Zhengzhou', 

4)) 


OrderedDict 中 的 pop() 使 得 用 户 可 以 删除 一 个 特定 键 值 的 元 素 , 另 外 还 有 
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popitem() 方 法 ,使 用 popitem (last = True) 可 以 删除 最 后 一 个 插入 的 键 值 对 , 若 
last 王 False, 则 删除 首部 键 值 对 。 

OD. pop( 'Shanghai ') 

print(OD) 

OD. popiten() 

print (0D) 


OD. popitem( last = False) 
print(OD) 


输出 结果 为 : 


OrderedDict([('Beijing', 5), ('Chongging', 1), ('Zhengzhou', 4)]) 
OrderedDict([('Beijing', 5), ('Chongging', 1)]) 
OrderedDict([( 'Chongging', 1)]) 


4. deque 


deque 是 double-ended queue 的 缩写 ,在 数据 结构 中 称 为 双 端 队列 。 用 列表 存储 
数据 的 优点 在 于 能 够 按 索引 查找 元 素 , 但 是 相对 而 言 插入 和 删除 元 素 就 慢 了 (参照 数 
据 结构 中 的 线性 表 ) deque 的 用 法 也 很 简单 ,其 中 新 增 了 appendleft O /popleft O 等 
方法 ,这 样 用 户 就 可 以 快速 地 在 元 素 的 开头 插入 /删除 元 素 , 具 体 见 图 A-1。 


1n [9]: from collections import deque 
dq = deque({i for 1 im range(1,11)]) 


Out[9]: deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) 
在 队列 未 尾 或 开头 插入 元 束 


In [10]: | dq.append('A') 
dq.appendleft('A') 
da 


Out(10]: deque(['B', 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 'A']) 
在 队列 末尾 或 开头 删除 元 素 


In [12]: dq.pop() 
dq.popleft() 
da 


Out(12]: deque([2, 3, 4, 5, 6, 7, 8, 91) 
在 队列 未 尾 或 开头 扩展 队列 


In [17]: | dq-extend([11,12,13]) 
da 


Out(17]: deque([2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13]) 
In [18]: | dq-extendleft(['Cat','Dog']) 
da 


Ost[18]: deque(['Dog', 'Cat', 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13]) 


图 A-1 deque 的 使 用 


附录 A (2) 


5. Counter 
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A.2.2 arrow 


Python 的 标准 库 提 供 了 关于 时 间 和 日 期 的 相应 模块 (datetime time $E) , ace s 
准 库 虽然 满足 了 用 户 的 很 多 需求 ,但 在 使 用 上 仍然 不 够 方便 ,这 里 介绍 如 何 使 用 
Python 的 第 三 方 库 一 一 arrow 来 处 理 时 间 的 相关 数据 。 

arrow 可 以 认为 是 对 datetime 等 标准 库 的 封装 ,默认 区 分 地 区 时 间 和 使 用 UTC， 
而 且 提供 了 非常 简单 的 创建 选项 来 支持 多 种 简单 的 初始 化 。 例 如 ， 


import arrow 

now utc = arrow. utcnow( ) # 获取 当前 UTC 时 间 

now = arrow. now( ) # 获取 当前 本 地 时 间 

now. to( 'utc') # 本 地 时 间 与 世界 时 间 的 转换 
now. to( 'local') 

print(type(now)) # now 是 一 个 Arrow Xf 


* 输出 : <class ‘arrow. arrow. Arrow'> 


now ts = now. timestamp + FER ANT IRL RC 
print(now_ts) 
print (now. format( 'YYYY - MM - DD HH: mm ZZ')) + 转换 为 时 间 字 符 串 


dt1 = arrow.get('2017 - 01 - 01 10:00', 'YYYY - MM - DD HH:mm') # 从 字符 串 生成 
dt2 = arrow.get('12.01.2014', 'MM. DD. YYYY') 

print(dti) 

* 输出 : 2017 - 01 — 01T10:00:00 + 00:00 

print(dt2) 

# 输出 : 2014 - 12 — 01700 : 00 : 00 + 00:00 


dt3 = arrow. Arrow(2017, 2,1) # 直接 生成 
print(dt3) 
# 输出 : [2017 - 02 - 01700:00:00 + 00:00] 


print(dt2.shift(years =- 1,months =- 20,days= +1)) toii 
# 输出 : 2012 - 04 — 02T00:00:00 + 00:00 


print(dt2.month) + 直接 获取 其 中 的 某 一 部 分 (例如 月 份 ) 
# 输出 : 12 
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print(dt2. time()) + 仅 获 取 日 期 中 的 时 间 
# 输出 : 00:00:00 

print (dtl > dt2) * 直接 比较 时 间 

# 输出 : True 

print(dt1 - dt2) # mid 


# 输出 : 762 days, 10:00:00 


print (dtl. to(' + 10:00')) # 转换 时 区 
# 输出 : 2017 — 01 - 01720:00:00+10:00 


print (dt1. span('hour')) * 获取 茶 一 段 时 间 区 间 

# 输出 : (< Arrow [2017 — 01 — 01710: 00:00 + 00:00]», < Arrow [2017 - 01 - 01710:59: 
59.999999 + 00:00]») 

print(dt2.humanize()) # WAGE fE "AS Bt Tad HERE 


A.2.3 timeit 


用 官方 的 说 法 ,“timeit 模块 提供 了 一 种 简便 的 方法 来 为 Python 中 的 小 块 代码 进 
行 计 时 。 它 有 3 种 使 用 方式 , 即 从 命令 行 调用 ,从 Python 交互 解释 器 调用 ,或 者 直接 
在 脚本 代码 中 进行 调用 ”。timeit 模块 一 般 在 为 一 段 代码 进行 性 能 优化 时 使 用 , 它 的 
主要 部 分 就 是 Timer 类 。 这 个 类 在 对 象 初始 化 时 接受 两 个 参数 ,第 一 个 参数 是 用 户 
要 计时 的 语句 ,第 二 个 参数 是 为 第 一 个 参数 语句 构建 环境 的 导入 语句 。 调 用 timeit() 
方法 将 对 语句 进行 计时 ,例如 : 


from timeit import Timer 


setup= '"' 
import requests 


func=""" 
r = requests. get( 'https: //www. baidu. com') 


if name == ' main ': 


t = Timer(func, setup = setup) 
print(t.timeit(number = 1)) # number 指定 调用 次 数 


输出 为 : 
0.09001956100109965 


Timer 的 另 一 个 常用 方法 是 repeat() ,这 个 方法 接受 两 个 可 选 参数 ,第 一 个 是 重 
复 整个 测试 的 次 数 ,第 二 个 是 每 个 测试 中 调用 被 计时 语句 的 次 数 。 


A.2.4 pickle 


使 用 pickle 模块 可 以 将 数据 对 象 序 列 化 并 保存 在 硬盘 中 ,在 需要 的 时 候 再 进行 
读 取 还 原 。 这 里 所 谓 的 “序列 化 ”, 就 是 把 变量 从 内 存 中 变 成 可 存储 或 传输 的 过 程 ,在 
Python 中 3X MY pickling, 在 其 他 语言 中 被 称 为 serialization, marshalling, 
flattening 等 。 

pickle 模块 中 的 两 个 主要 方法 是 dumpO fl load()。 其 中 ,dump() 接 收 一 个 文件 
句柄 和 一 个 数据 对 象 作为 参数 ,把 数据 对 象 以 特定 的 格式 保存 到 给 定 的 文件 中 。 当 
用 户 使 用 load() 从 文件 中 取出 已 保存 的 对 象 时 ,pickle 把 这 些 对 象 恢复 为 它们 本 来 的 
格式 ,例如 : 


import pickle 
# 或 者 : import cPickle as pickle 
obj ={"A": 1, "B^: 2, "C": 3} 


E 将 obj 保存 到 文件 中 
pickle.dump(obj, open("temp.pkl", "wb")) 


*OBBHOHÁSM obj WR 
obj r* pickle. load(open("temp. pkl", "rb")) 


print(obj r) 


与 dump() 不 同 ,pickle. dumps() 方 法 将 把 任意 对 象 序列 化 成 一 个 str 对 象 , 然 后 
就 可 以 把 这 个 str 写 人 文件 ,在 恢复 时 使 用 load() 方 法 。 有 时 候 , 用 户 还 会 用 cPickle 
来 代替 pickle, 这 是 一 个 C 语言 实现 版 本 ,拥有 更 好 的 性 能 。 例 如 : 

try: 
import cPickle as pickle 


except ImportError: 
import pickle 
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A.2.5 os 


os 模块 提供 了 一 种 方便 地 使 用 操作 系统 函数 的 方法 ,在 实际 中 常用 于 操作 文件 
和 文件 目录 。 其 主要 用 法 如 下 。 

* os. name; 一 个 字符 串 , 它 指示 用 户 正在 使 用 的 系统 平台 。 

* os. getcwdO : 得 到 当前 工作 目录 , 即 当 前 Python 脚本 工作 的 目录 路 径 。 

* os. listdirO ; 返回 指定 目录 下 的 所 有 文件 和 目录 名 。 

* os. chdir(): 改变 工作 目录 。 

* os, walk(): 遍历 目录 。 

* os. remove): 删除 一 个 文件 。 

* os. system(); 运行 shell 命令 。 

* os. path. splitO : 返回 一 个 路 径 的 目录 名 和 文件 名 。 

* os. path, join : 将 分 离 的 各 部 分 组 合成 一 个 路 径 名 。 

* os. path. exists: 检查 路 径 名 存在 与 否 。 

* os. path. isfile(): 检查 是 否 为 一 个 文件 (如 果 不 是 文件 或 者 不 存在 路 径 , 返 回 

False) 。 
* os. path. isdirO : 检查 是 否 为 一 个 目录 。 
* os. path. isabsO ; 检查 是 否 为 绝对 路 径 。 


A.2.6 sys 


按 官方 说 法 ,sys 模块 可 供 访问 由 解释 器 使 用 或 维护 的 变量 和 与 解释 器 进行 交互 
的 函数 。 简 而 言 之 , 它 负 责 程序 与 Python 解释 器 的 交互 ,主要 目标 是 与 运行 环境 交 


互 。 例 如 : 
import sys 
print(sys.argv) + 命令 行 参数 列表 ，sys. argv[ 0 ] 表 示 代 码 本 身 的 文件 路 径 
print(sys.modules.keys()) + 返回 所 有 已 经 导 人 的 模块 列表 ，sys. modules 是 一 个 字典 
print(sys. version) * 获取 当前 Python Interpreter 信息 
print(sys.platform) * 获取 当前 操作 系统 平台 信息 
print(sys.path) + 获取 指定 模块 搜索 路 径 的 字符 串 集 合 


print(sys. executable) * 当前 Python 解释 器 的 位 置 


A.2.7 itertools 


大 家 看 到 “iter” 就 知道 ,这 个 库 是 与 迭代 器 有 关 的 。Python 中 和 迭代 器 的 特点 是 
惰性 求 值 (Lazy evaluation), 即 只 有 当选 代 至 某 个 值 时 它 才 会 被 计算 ,这 个 特点 使 得 
迭代 器 特别 适用 于 遍历 大 文件 或 无 限 集合 ,在 这 一 点 上 有 着 list(list 是 一 个 可 迭代 对 
象 ) 不 能 比拟 的 优势 。itertools 是 Python 的 内 置 模块 ,其 中 包含 了 一 系列 用 来 产生 
不 同类 型 迭代 器 的 函数 或 类 ,这 些 函 数 的 返回 都 是 一 个 迭代 器 ,用 户 可 以 通过 for 循 
环 来 遍历 取 值 ,也 可 以 使 用 next() 来 取 值 。itertools 的 常见 用 法 如 下 : 


import itertools 


num count = itertools.count(start=1, step=4) # 一 个 计数 器 ,可 以 指定 起 始 位 置 和 步 长 
for i in num count: 
IET 220; 
break 
print('()'.format(i), end= '\t') 
print() 


cha_circle = itertools. cycle( 'ILOVEU') Ë 对 可 迭代 对 象 反 复 循环 
ct=0 
for ch in cha circle: 

d£ ct > 10: 

break 

print(ch, end= '\t') 

ctt-1 
print() 


repeat str- itertools.repeat('Yes', times- 10) # 反复 生成 一 个 对 象 ,指定 次 数 
print(list(repeat str)) 
* 以 上 为 无 限 的 选 代 器 


num = itertools.accumulate(range(1, 10)) * S 
print(list(num)) 


chain = itertools.chain([1, 2, 3], ['A', 'B'], repeat str) # 连接 可 迭代 对 象 
print(list(chain)) E 输出 结果 中 没有 “Yes”, 因 为 选 代 器 已 经 耗 尽 


comb = itertools.combinations(['A', 'B', 'C'], 2) # 求 列 表 或 生成 器 中 指定 数目 的 元 素 不 重 
# 复 的 所 有 组 合 

print(list(comb)) 

comb = itertools.combinations with replacement(['A', 'B', 'C'], 2) € 同上 ,但 允许 重复 元 素 
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print (list (comb) ) 


perm = itertools.permutations(['A', 'B', 'C'], 2) # 求 元 素 的 所 有 排列 
print("Pemutation :\t", list(perm)) 
result = itertools.compress(['A', 'B', 'C'], [0, 1, 1]) # 按 条 件 ( True or False) iii TCH 


print(list(result)) 
result = itertools.dropwhile(lambda x: x « 10, range(1, 15)) + 按照 条 件 函 数 丢 弃 掉 可 送 代 
## 对 条 前 面 的 元 素 

print(list(result)) 

result = itertools.takewhile(lambda x: x < 10, range(1, 15)) # 与 dropwhile() 相 反 

print(list(result)) 

result = itertools.filterfalse(lambda x: x == 'B' ['A', 'B', 'C']) # 按照 条 件 函 数 保留 
# false WILK 

print(list(result) ) 


groups = itertools. groupby(range(10), lambda x: x < 3 or x > 6) 
P 按照 分 组 函数 的 值 对 元 素 进行 分 组 , 如 果 不 指定 , 则 默认 对 其 中 的 连续 相同 项 进行 分 组 
for cond, numbers in groups: 

print(cond, ":\t", list(numbers)) 


print(itertools.tee('abc', 3)) # 复制 选 代 器 ,可 指定 个 数 


print(list(itertools. product('abe', range(1, 4)))) # 求 多 个 可 选 代 对 象 的 笛 卡 儿 积 


上 面 代码 的 输出 为 : 


T 5.9 U3 IT 

I B. 0 wv E 8 I b OV E 

['Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes'] 

[1,.3, (6, 10, 15, 21, 28, 36,45] 

[1,2; 3, ARS. TBH 

ECR “BLY, (Ua, 6), (br 109] 

L(35, RD, Ca, BY), OM, 10), CB, BY, (85. 169, (65, "OI 

Pemutation : [('A', 'B'), ('A', 'C'), ('B', 'A'), CB 'C'), ('C', 7A), CC, 'B')] 

UB, C] 

[10, 11; 12, 13; 14] 

[1, 2, 3, 4, 5, 6, 1,8, 9] 

['A', 'C'] 

True : [0, 1, 2] 

False : [3, 4, 5, 6] 

True : [7, 8, 9] 

(< itertools. tee object at 0x104548548 >, < itertools. tee object at 0x104548448 >, 
«itertools. tee object at 0x104548588 >) 

[('a', 1), Ca', 2), Ca', 3), Cb', 1), Cb', 2), Cb, 3), Ce', 1), Ce', 2), C67; 3)] 


A.2.8 functools 


functools 是 为 函数 而 生 的 模块 ,其 中 提供 了 一 些 非常 有 用 的 高 阶 函数 。 高 阶 函 


o 


数 就 是 可 以 接收 函数 作为 参数 或 者 以 函数 作为 返回 值 的 函数 ,因为 Python 中 的 函数 
也 是 对 象 ,所 以 操作 起 来 比较 方便 。 

partial 听 起 来 像 是 “ 偏 函数 ”, 但 这 并 非 数 学 上 的 偏 函数 ,在 Python 中 的 偏 函数 
通过 固定 一 个 原 函 数 的 某 些 参数 来 返回 一 个 新 的 函数 , 换 句 话说 , 它 通 过 包装 函数 允 
许 用 户 “重新 定义 ”函数 。 例 如 : 


from functools import partial 


def add(x, y): 

return x * y 
add y= partial(add, 3) 
print(add y(5)) * 输出 8 


@wraps 接收 一 个 函数 来 进行 装饰 ,并 加 入 了 复制 函数 名 称 、 注 释文 档 、 参 数列 
表 等 功能 ,这 可 以 让 用 户 在 装饰 器 里 面 访问 装饰 之 前 的 函数 的 属性 : 


from functools import wraps 
def decorater(f): 


def wrapper(): 
"""wrapper doc 
print('Calling decorated') 
return f() 

return wrapper 


"m 


@decorater 

def example(): 
"""example doc 
print('Called example function') 


"m 


print(example. doc ) 


输出 为 : 


wrapper doc 


from functools import wraps 
def decorater(f): 


@wraps(f) 

def wrapper() : 
""" ura [ doc""" 
print('Calling decorated') 


B 
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return f() 
return wrapper 


@decorater 
def example(): 


mn "nn 


example doc 
print('Called example function’) 


print(example. doc ) 


输出 为 : 


example doc 


A.2.9 threading queue 与 multiprocessing 


1. threading 


threading 是 Python 的 多 线程 模块 ,主要 用 于 IO 操作 (例如 文件 的 读 写 和 网 络 
访问 等 ,很 巧 , 这 些 都 是 疏 虫 程序 的 主要 任务 )。 最 简单 的 演示 如 下 : 


import threading 
from threading import Thread 


def product(a, b): 
print (threading. currentThread().getName()) 
prod=a * b 
print(prod) 


"__main__': 


if name == ' i 
for i in range(5): 
thread new = threading. Thread(target = product, args - (i,i *1)) 
*dHHOx1.1x2,2x 3 FHAR 
thread new.start() 


输出 为 : 


Thread- 1 
0 
Thread - 2 
2 
Thread - 3 


为 了 了 解 该 模块 ,用 户 需要 先 学 习 进 程 与 
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与 线程 的 基本 知识 , 见 表 A-2。 


表 A-2 进程 与 线程 的 简单 对 比 


进 程 


& 8 


OD 进程 是 正在 运行 的 程序 的 实例 

(2) 操作 系统 利用 进程 把 工作 划分 为 一 些 功 能 
单元 

(3) 操作 系统 加 载 程序 ,以 进程 的 方式 在 操作 系 
统 中 运行 它 ,并 分 配 了 系统 资源 给 进程 (内 存 
等 ) 


Thread 类 主要 提供 了 以 下 方法 。 

。 runO : 用 于 表示 线程 活动 的 方法 。 
Thread 重 写 。 

start(): 启动 线程 活动 。 


isAlive(): 判断 线程 是 否 为 活动 的 。 
getNameO ; 返回 线程 名 。 
setName(): 设置 线程 名 。 
例如 下 面 的 代码 : 


import threading 
from threading import Thread 


def dosone(): 
# 线程 函数 
def thread func(a): 
for i in range(3): 
print(a,i) 


thrd_1 = Thread(target = thread func, args 
thrd 1.start() 


(1) 进程 中 所 包含 的 一 个 或 多 个 执行 单元 称 为 
线程 

(2) 线程 是 CPU 调度 和 执行 的 基本 单位 

(3) 操作 系统 创建 一 个 进程 后 ,该 进程 会 有 一 个 
主线 程 

(4) 一 个 线程 可 以 创建 另 一 个 线程 ,同一 个 进程 
中 的 多 个 线程 之 间 可 以 并 发 执行 


线程 执行 的 操作 常常 是 在 编写 类 时 继承 


join([time]): 等 待 至 线程 中 止 ( 阻 塞 )。 


=['thrd 1']) 
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其 输出 是 : 


thrd 10 
thrd 11 
thrd 12 
thrd 20 
thrd 21 
thrd 22 
thrd 30 
thrd 31 
thrd 32 


D 


1 


|} 


在 继承 Thread 时 ,代码 类 似 下 面 的 样子 : 


2. queue 


queue 是 Python 标准 库 中 线程 安全 的 队列 实现 ,用 于 线程 之 间 的 信息 传递 。 最 
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简单 的 用 法 如 下 : 


from threading import Thread 
from queue import Queue 


my queue = Queue( ) 


class Thri(Thread) : 
def init (self): 
Thread. init (self) 
def run(self): 
for i in range(0,5): 
put data = "new {}th data here". format(i) 
my queue. put(put data) 
+ 编写 此 线程 任务 
pass 


class Thr2(Thread): 
def init (self): 
Thread. init (self) 
def run(self): 
get data- my queue.get() 
# 编写 此 线程 任务 
print(get data) 
pass 
if name  -- ' main 
threadl = Thr1() 
thread2 = Thr2() 
threadl.start() 
thread2.start() 
thread1. join() 
thread2. join() 


因为 是 FIFO( 先 进 先 出 队列 ) ,所 以 输出 为 : 
new Oth data here 


除 此 之 外 ,queue 模块 还 提供 了 LIFO( 后 进 先 出 队列 ,与 栈 结 构 类 似 ) 和 优先 级 
队列 (数字 越 小 优先 级 越 高 ) ,例如 : 


import queue 
q= queue. LifoQueue( ) 
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for i in range(5): 
q.put(i) 


while not q. empty(): 
print(q.get()) 


q 7 queue. PriorityQueue() 
q.put((1, 'Mike')) 
q.put((0, 'James')) 
q.put((2, "Linda')) 
q.put((1, "Adam')) 


while not q. enpty() : 
print(q.get(block = False)) 


输出 为 : 


BEN Us 


0 

(0, 'James') 

(1, 'Adan') 

(1, 'Mike') 

(2, 'Linda') 

【提示 】 Python 代码 的 执行 由 Python 解释 器 完成 ,而 对 Python 虚拟 机 的 访问 
由 全 局 解释 器 锁 (GIL) 来 控制 ,这 个 锁 能 保证 CPU 上 同时 只 有 一 个 线程 在 运行 (不 
能 发 挥 多 核 CPU 的 能 力 ) 。CPython 解释 器 的 这 个 特性 的 后 果 就 是 ,同一 时 间 只 会 
有 一 个 获得 GIL 的 线程 在 运行 ,其 他 线程 则 处 于 等 待 状态 。 这 也 是 Python 被 认为 不 
适合 开发 CPU 密集 型 程序 的 原因 ,Python 的 多 线程 也 被 诉 病 为 “ 假 多 线程 ,不 过 ， 
网 络 或 者 文件 IO 刚好 都 是 非 CPU 密集 型 ,因此 用 户 完全 可 以 使 用 多 线程 编程 来 优 
化 其 性 能 。 


3. multiprocessing 


最 后 要 介绍 的 是 multiprocessing, 它 是 Python 的 多 进程 编程 模块 ,设计 非常 简 
洁 、 高 效 ,借助 这 个 工具 , 用户 可 以 轻松 地 完成 单 进程 到 多 进程 的 “升级 ”。 
multiprocessing 支持 子 进程 、 通 信和 共享 数据 ,提供 了 Process, Pool, Queue, Pipe, 


Lock 等 组 件 。 

Multiprocessing. Pool 模块 可 以 提供 指定 数量 的 进程 供用 户 调用 , 当 有 新 的 请 求 
提交 到 Pool 中 时 ,如 果 池 还 没有 满 ,那么 就 会 创建 一 个 新 的 进程 来 执行 该 请 求 。 
Pool 最 简单 的 用 法 就 是 mapO 函数 : 


from multiprocessing import Pool 


def f(x): 
print(x * 1) 


if name == ' main ': 


with Pool(processes = 5) as p: 
p.map(f, [1, 2, 3]) 


实际 上 ,进程 池 的 使 用 有 很 多 种 方式 ,例如 apply async.apply. map. async, map 
等 。 其 中 ,apply_async 和 map. async 为 异步 方法 , 换 句 话说 ,在 启动 进程 函数 之 后 会 
继续 执行 后 续 的 代码 而 不 用 等 待 进程 函数 返回 。 另 外 ,与 threading 中 的 Thread 类 
似 ,multiprocessing 也 可 以 直接 启动 进程 ,甚至 参数 名 都 与 threading 中 的 对 应 方法 
类 似 : 


from multiprocessing import Process 


def func( name): 
print('Hello', name) 


if name == ' main ': 
p = Process(target = func, args = ( Mike',)) 
p.start() 
p. join() 


当然 也 可 以 通过 继承 Process 类 来 实现 : 


from multiprocessing import Process 
import time 


class MyProcess(Process): 
def init (self, arg): 
super(MyProcess, self). init () 
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# multiprocessing. Process. init (self) 


self. arg = arg 


def run(self): 
print('Hello', self. arg) 
time. sleep(1) 


if name == ' main _ 
for i in range(10): 
p= MyProcess(i) 
p.start() 


p. join() 


multiprocessing 中 进程 的 通信 主要 有 下 面 两 种 方式 。 

”队列 (Queue): 类 似 threading 中 的 概念 ,在 使 用 时 可 以 将 进程 间 共 用 的 数据 
保存 在 一 个 Queue 对 象 中 ,保证 是 线程 安全 的 。 

。 管道 (Pipe) : 两 个 对 象 通过 Pipe 连接 在 一 起 ,就 像 两 个 对 象 通过 一 根 管子 连 
接 起 来 ,互相 通信 ,保证 公共 数据 的 一 致 性 。 

例如 : 


import multiprocessing 
from multiprocessing import Process, Pipe, Queue 


def funcl( conn, conn_name): 
conn. send([ 'hello 1 there sent by {}'. format(conn_name)]) 
conn.close() 


def func2(conn, conn name): 
conn. send([ 'hello 2 there sent by () '. format(conn name)]) 
conn.close() 
if name == ' main | 
conn 1, conn 2 = Pipe() 
pl = Process(target = funcl, args = (conn l,'conn 1')) # 将 一 个 connection object fft 
# 子 进程 p 
p2 = Process(target = func2, args = (conn 2, 'conn 2')) 
pl. start() 
p2.start() 
print(conn 1.recv()) 
print(conn 2.recv()) 
pl. join() 
p2. join() 


输出 为 : 


[ "hello 2 there sent by conn 2'] 
['hello 1 there sent by conn 1'] 


import multiprocessing 
from multiprocessing import Process, Pipe, Queue 


def func(q): 
q. put( 'Hello there from func’) 


if name == ' main 


q= Queue() # 创建 队列 ,此 时 队列 9 在 主 进程 中 
p= Process(target = func, args = (q,)) + 将 进程 g 作 为 参数 传 给 子 进 程 P 
p.start() 

p. join() 


q. put( 'Hello there from main') 
while not q. empty(): 
print(q.get()) 


输出 为 : 


Hello there from func 
Hello there from main 


A.3 requests JE 


A.3.1 requests 基础 


在 本 书 示例 中 大 量 使 用 了 requests 库 ,作为 Python 最 知名 的 开源 模块 之 一 , 它 
目前 支持 Python 2.6—2. 7 以 及 Python 3. 3 一 3. 7 版本。requests 由 Kenneth Reitz 
开发 2( 见 图 A-2) ,其 设计 和 源 代码 也 符合 Python 风格 ( 称 为 Pythonic) ,本 节 将 比较 
全 面 地 介绍 requests 的 基础 知识 。 

作为 HTTP 库 ,requests 的 使 命 就 是 完成 HTTP 请 求 。 对 于 各 种 HTTP 请 求 ， 
requests 都 能 简单 漂亮 地 完成 ,当然 其 中 GET 方法 是 最 为 常用 的 : 


© 他 的 个 人 网 站 是 “https://www. kennethreitz. org/projects/”。 
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Python 3, the new best practice, is here to stay. Python 2 will retire in only 29 months! 


Requests: HTTP for Humans 
Release v2.18.4. (Installation) 
CED OS EEE EE Emma 


Requests is the only Non-GMO HTTP library for Python, safe for human consumption. 


Note: 


mort The use of Python 3 is highly preferred over Python 2. Consider upgrading your ap- 


图 A-2 requests 的 口号 : 给 人 类 使 用 的 非 转基因 HTTP FE 


r = requests. get(URL) 

r= requests. put(URL) 

r = requests. delete(URL) 
r = requests. head(URL) 

r = requests. options(URL) 


如 果 想 要 为 URL 的 查询 字符 串 传 递 参数 (例如 一 个 URL 中 出 现 了 "? xxx= 


yyy&aaa 一 bbb") ,只 需要 在 请 求 中 提供 这 些 参数 即 可 ,就 像 这 样 ; 


comment json url = 'https://sclub. jd. com/comment/productPageComments. action' 


p data- ( 
'callback': 'fetchJSON comment98vv242411', 
'score': 0, 
'sortType': 1, 
'page': 0, 


'pageSize': 10, 
‘isShadowSku': 0, 


response = requests. get(comment_json_url, params = p data) 


其 中 ,p_data 是 一 个 dict 结构 ,这 正 是 在 京东 购物 评论 抓 取 那 一 节 使 用 到 的 代码 。 打 
印 出 现在 的 URL, 可 以 看 到 URL 的 编码 结果 : 


print(response. url) 


输出 为 : 


https://sclub. jd. com/comment/productPageComments. action?page = 0&isShadowSku = 0&sortTYpe 
= 1&callback = fetchJSON comment98vv242411&pageSize = 10&score = 0 
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在 使 用 . text 读 取 响应 内 容 时 requests 会 使 用 HTTP 头 部 中 的 信息 来 判断 编码 
方式 。 当 然 , 编 码 是 可 以 更 改 的 ,如 下 : 


print(response. encoding) + 会 输出 “GBK” 
response. encoding = 'utf - 8' 


text 有 时 候 很 容易 和 content 混 消 ,简单 地 说 ,text 表达 的 是 编码 后 (一 般 就 是 
unicode 编码 ) 的 内 容 , 而 content 是 字 节 形式 的 内 容 , 所 以 读者 应 该 能 够 猜 到 下 面 代 
码 的 输出 : 

r= requests. get( 'https: //www. douban. con') 


print(type(r. text) ) 
print(type(r.content)) 


输出 为 : 


<class 'str> 
<class 'bytes'> 


在 requests 中 还 有 一 个 内 置 的 JSON 解码 器 ,只 需要 调用 r.json() 即 可 。 

在 仆 虫 程序 的 编写 中 经 常 需要 更 改 HTTP 请 求 头 ,正如 之 前 很 多 例子 那样 , 想 
为 请 求 添加 HTTP 头 部 ,只 要 简单 地 传递 一 个 dict 给 headers 参数 就 可 以 了 。 
r.status code 是 另外 一 个 常用 的 操作 ,这 是 一 个 状态 码 对 象 , 用 户 可 以 这 样 检测 
HTTP 请 求 对 象 : 


print(r.status code == requests. codes. ok) 


实际 上 ,requests 还 提供 了 更 简洁 (简洁 到 不 能 更 简洁 ,与 上 面 的 方法 等 效 ) 的 
Jrik: 


print(r.ok) 


在 这 里 r. ok 是 一 个 布尔 值 。 

如 果 是 一 个 错误 请 求 (4XX 客户 端 错误 或 5XX 服务 器 错误 响应 ), 则 可 以 通过 
response. raise_for_status() 来 抛 出 异常 。 

对 于 Cookie( 如 果 响 应 中 有 ) ,用 户 也 可 以 方便 地 查看 : 
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print(r. cookies. items()) 


发 送 Cookie 到 服务 器 则 类 似 , 只 需要 传人 一 个 cookies BR: 


cookies = dict(cookies_are= 'working') 
r = requests. get( ‘https: //www. douban. con', cookies = cookies) 


至 于 重 定 向 问题 ,在 默认 情况 下 ,除了 HEAD 类 型 以 外 ,requests 会 自动 处 理 所 
有 重 定向 。 用 户 可 以 使 用 response. history 来 查看 历史 请 求 : 


r = requests. get( ‘https: //www. douban. con') 
print(r. history) 


由 于 访问 豆瓣 首页 并 不 会 出 现 重 定向 ,因此 输出 是 一 个 空 的 列表 。 如 果 更 改 一 
下 ,访问 “http://allenzyoung. github. io”( 这 是 一 个 个 人 博客 ) ,这 时 就 会 存在 重 定向 
BET: 


r= requests. get( 'http://allenzyoung. github. io/') 
print(r. history) 


此 时 history 列表 不 再 是 空 的 ,而 是 L< response [301]>]。 查 看 一 下 跳 转 到 了 
哪里 : 


print(r. history[0]. headers. get( 'Location')) 


其 输出 是 “http://allenzyoung. xyz/”, 这 与 在 浏览 器 中 访问 的 结果 一 致 。 
另外 ,使 用 timeout 参数 可 以 保证 requests 在 经 过 以 timeout 参数 设 定 的 时 间 
( 秒 ) 之 后 停止 等 待 响应 。 


A.3.2 更 多 用 法 


requests 还 提供 了 会 话 对 象 (Session) ,用 户 可 以 使 用 它 来 跨 请 求 保持 Cookie: 


s= requests. Session() 

s. get( 'http://httpbin. org/cookies/set/sessioncookie/ourcookies') 
r= s.get("http://httpbin. org/cookies") 

print(r.text) 


| s^ (07) 


上 面 代码 的 输出 为 : 


{ 
"cookies": { 
"sessioncookie": "ourcookies" 
H 


如 果 要 访问 cookies. f JH] Session. cookies 即 可 。 另 外 需要 注意 ,任何 传递 给 请 
求 方法 的 字典 数据 都 会 与 已 设置 的 会 话 层 数据 合并 。 

requests 还 可 以 为 HTTPS 请 求 验 证 SSL 证 书 ,在 requests 中 ,SSL 验证 默认 是 
开启 的 ,如 果 证 书 验证 失败 就 会 抛 出 SSLError。 如 果 手 动 将 verify 设置 为 False， 
requests 就 会 忽略 对 SSL 证 书 的 验证 。 

使 用 代理 也 很 简单 , 设 定 proxies 参数 来 配置 即 可 : 

import requests 

proxies = { 

pert ae 


} 
requests. get("http: //www. baidu. com", proxies = proxies) 


除 此 之 外 ,在 requests 中 还 支持 事件 挂钩 、 流 请 求 .SOCKS 代理 等 功能 ,平时 使 
用 的 并 不 多 。 在 扩展 方面 ,由 于 requests 本 身 具 有 较 多 的 用 户 , 所 以 也 诞生 了 很 多 扩 
展 模块 。 这 里 介绍 最 常用 的 两 个 , 即 CacheControl 和 Requests- Toolbelt 。CacheControl 
能 为 requests 添加 完整 的 HTTP 缓存 功能 ,因此 十 分 适合 在 需要 大 量 请 求 的 时 候 使 
用 。Requests-Toolbelt 是 一 众 扩 展 工 具 的 集合 ,如 果 用 户 想 发 送 一 个 大 文件 作为 
multipart/form-data 请 求 , 就 可 以 使 用 支持 数据 流 的 Requests-Toolbelt 来 完成 。 

熟练 掌握 requests 库 的 使 用 将 会 为 怜 虫 的 开发 商定 坚实 的 基础 ,而 requests PE 
的 简洁 设计 也 保证 了 用 户 能 够 通过 代码 理解 背后 的 HTTP 工作 机 制 。 


A.4 正则 表达 式 


A.4.1 什么 是 正则 表达 式 


正则 表达 式 即 RegEx(Regular Expression) , 它 使 用 单个 符合 一 定语 法 的 字符 串 
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来 描述 和 匹配 一 系列 符合 某 个 规则 的 字符 串 。 换 名 话说 ,正则 表达 式 就 是 一 种 代码 ， 
其 中 记录 了 文本 (字符 串 ) 出 现 的 一 些 规则 。 正 则 表达 式 的 应 用 场景 十 分 广泛 ,这 种 
代码 的 诞生 一 开始 是 为 了 方便 文本 编辑 器 的 工作 ,而 在 现在 的 怜 虫 开发 中 主要 用 于 
字符 串 处 理 和 抓 取 规则 这 些 方面 。 

比如 说 在 一 篇 文章 里 查找 cat” 这 个 词 , 则 可 以 使 用 正则 表达 式 "cat" 。 这 个 单词 
字符 串 本 身 就 是 一 个 简单 的 正则 表达 式 , 它 可 以 描述 并 匹配 这 样 的 字符 串 一 一 由 3 
个 字母 (在 计算 机 语 境 下 应 该 说 字符 更 为 合适 ) 组 成 ,分 别 是 c\a\t。 但 如 果 用 户 仅仅 
使 用 "cat" 这 个 正则 表达 式 来 做 文本 查找 ,那么 category、catastrophe 等 单词 也 会 被 作 
为 结果 返回 。 如 果 要 精确 地 查找 cat 这 个 单词 , 则 应 该 使 用 "\bcat\b"。 在 这 之 中 ,\b 
是 正则 表达 式 语法 中 的 一 个 特殊 符号 ,代表 了 英文 单词 的 开头 或 结尾 。 

另外 ,读者 可 能 已 经 知道 ,在 计算 机 中 “* ”( 星 号 ,同时 也 是 乘法 的 标志 ) 表 示 通 
配 符 , 但 在 正则 表达 式 中 ,匹配 一 个 任意 字符 (除了 换行 符 外 ) 的 字符 是 ”.”, 而 “* ” 表 
示 数 量 , 它 指定 * 前 面 的 部 分 可 以 重复 使 用 任意 次 。 因 此 ,如 果 想 要 查找 形 如 "cat … 
fish” 的 句子 ,而 对 cat 和 fish 之 间 的 东西 (单词 ) 不 关心 ,那么 就 需要 使 用 正则 表达 
式 "\bcat\b. * \bfish\b"( 注 意 ,这 里 的 引号 并 不 是 正则 表达 式 的 内 容 )。 


A.4.2 正则 表达 式 的 基础 语法 


正则 表达 式 的 语法 对 很 多 人 来 说 是 有 些 复杂 的 ,甚至 还 有 这 样 一 则 笑话 : 一 个 
程序 员 碰 到 了 一 个 问题 ,他 决定 用 正则 表达 式 来 解决 ,于 是 他 有 了 两 个 问题 。 但 如 果 
从 简单 的 方面 人 手 ,正则 表达 式 也 不 是 不 能 学 会 的 。 

fg. ”这样 的 字符 在 正则 表达 式 中 称 为 元 字符 ,常用 的 元 字符 如 表 A-3 所 示 。 


表 A-3 正则 表达 式 中 的 元 字符 


元 字 符 x 能 
匹配 除 换行 符 以 外 的 任意 字符 
\w 匹配 字母 EF mA MI 
\s 匹配 任意 的 空白 符 ( 空 格 、 制 表 符 、 换 行 符 、 中 文 全 角 空 格 等 ) 
M 匹配 数字 (0 一 9) 


BR 
元 字 符 x 能 
\b 匹配 单词 的 开始 或 结束 
i 匹配 字符 串 的 开头 
$ 匹配 字符 串 的 结尾 


在 正则 表达 式 中 还 存在 一 种 称 为 限定 符 的 符号 ,一 般 用 于 表示 数量 , 见 表 A-4。 


表 A-4 正则 表达 式 中 的 限定 符 


限 定 符 功 能 
* 重复 零 次 或 更 多 次 
+ 重复 一 次 或 更 多 次 
? 重复 零 次 或 一 次 
in) 重复 n 次 
{n,} 重复 次 或 更 多 次 
inm) E n Bm Kk 


元 字符 会 大 大 方便 用 户 的 匹配 。 比 如 ,如 果 用 户 想 要 匹配 所 有 的 手机 号 (11 
位 ) ,就 可 以 使 用 表达 式 "*\d{11} $", 即 匹配 一 个 字符 串 , 其 中 有 且 只 有 11 个 数字 。 
若 匹配 所 有 以 “131? 开 头 的 手机 号 , 改 为 “131\d{8}$ " 即 可 。 另 外 ,编程 中 常用 的 转 义 
符 “\” 在 这 里 仍然 表示 转 义 ,如 果 要 匹配 “3.14” 这 个 数字 ,用 户 就 需要 使 用 "*3\. 14 $ "这 
样 的 表达 式 。 对 于 {n,} 这 个 规则 ,不 难 发 现 , 当 n 为 0 时 它 与 *“* ”等 效 , 当 n 为 1 时 
它 与 “十 ”等 效 。 

花 括 号 “人 的 使 用 前 面 已 经 提 到 ,而 中 括号 *[ ”和 圆 括号 ”(" 在 正则 表达 式 中 也 有 
特定 的 含义 。 中 括号 表示 一 个 类 别 , 比 如 [abc] 匹 配 a b.c 三 个 字母 中 的 任意 一 个 ， 
[0-9] 匹 配 任意 一 个 阿拉 伯 数 字 ,其 含义 与 \d 一 致 。 常 用 的 中 括号 表达 如 下 。 

* [az]: 匹配 所 有 的 小 写字 母 。 

* [A-Z]: 匹配 所 有 的 大 写字 母 。 

。 [a-zA-Z]: 匹配 所 有 的 字母 。 

* [0-9]: 匹配 所 有 的 数字 。 

。 [0-9\. \-]: 匹配 所 有 的 数字 、 句 号 和 减 号 ( 杠 号 )。 

圆 括号 用 来 指定 分 组 ( 子 表达 式 ) ,或 者 更 准确 地 说 ,“()” 标 记 一 个 子 表达 式 的 开 
始 和 结束 位 置 。 比 如 ,"*(3\. 10 (3) $ "这 样 的 正则 表达 式 描述 字符 串 "3. 143. 143. 14"。 
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TER. “ca * UBI Cea) * t” 的 意义 是 不 同 的 ,前 者 匹配 的 是 ct cat caat, caaat 等 这 样 的 
字符 串 , 后 者 匹配 的 是 t\cat\cacat 等 这 样 的 字符 串 。 

另外 要 提 到 的 一 个 重要 符号 是 “|”, 它 表示 不 同 的 规则 分 支 条 件 , 其 意义 类 似 于 
布尔 运算 中 的 or, 例 如 "*(132|1135)\d{8}$" 指 匹配 以 132 或 者 135 开头 的 手机 号 。 

正则 表达 式 还 包括 很 多 内 容 , 例 如 反 义 。 

* NW; 匹配 任意 不 是 字母 数字、 下 面 线 、 汉 字 的 字符 。 

。\S; 匹配 任意 不 是 空白 符 的 字符 。 

* ND: 匹配 任意 非 数 字 的 字符 。 

* NB 匹配 不 是 单词 开头 或 结束 的 位 置 。 

* [^a]: 匹配 除 a 以 外 的 任意 字符 (注意 中 括号 里 的 “ ”不 再 是 一 个 定位 符 ) 。 

据 此 ,如 果 和 希望 匹配 任何 一 个 没有 空白 符 的 字符 串 , 则 应 该 使 用 "\S 十 "。 

在 匹配 过 程 中 , 当 正 则 表达 式 中 包含 匹配 重复 字符 的 限定 符 ( 例 如 ** ”) 时 ,通常 
会 用 这 个 规则 去 匹配 尽 可 能 多 的 字符 。 比 如 表达 式 "c. * t", 它 将 会 匹配 最 长 的 以 c 
开始 ,以 { 结 束 的 字符 串 。 如 果 用 它 来 搜索 cctct, 它 会 匹配 整个 字符 串 cctcr。 这 在 正 
则 表达 式 的 世界 中 被 称 为 “ 贪 禁 ”。 而 与 之 对 应 的 “懒惰 ,意思 就 是 匹配 尽 可 能 少 的 
字符 。 前 面 提 到 的 贪 禁 的 表达 式 都 可 以 改变 为 懒惰 匹配 ,只 要 在 对 应 的 规则 后 面 加 
上 一 个 问号 即 可 。 这 里 仍 以 刚才 的 cetet 为 例 , 如 果 规 则 改变 为 "c. x ? t" ,那么 它 匹 
配 到 的 就 是 cot 和 ct。 

读者 可 能 已 经 注意 到 ,由 于 正则 表达 式 具 有 类 似 于 数学 运算 的 形式 ,其 算 符 优先 
级 也 是 需要 注意 的 。 一 般 而 言 , 转 义 符 的 优先 级 最 高 ,其 次 是 括号 ,括号 的 优先 级 又 
高 于 限定 符 。 之 后 是 定位 符 ( 例 如 “\b”) 和 任何 元 字符 ,“ 或 (| )” 的 优先 级 最 低 ,这 也 
正 是 "*(132|135)\d{8)} $ "fle aS DE Be“ 13200012345” mi A DE Ae “1323512345678” AY JE 
因 , 如 果 想 要 匹配 这 个 号 码 , 必 须 用 括号 来 改变 规则 的 匹配 顺序 ,例如 "*(13)(2|1) 
(35)\d{8} $ 

除了 上 述 的 基础 语法 以 外 ,正则 表达 式 还 包括 一 些 更 高 级 .复杂 的 内 容 , 比 如 后 
向 引用 、 断 言 等 ,由 于 篇 幅 所 限 这 里 不 再 蒙 述 。 最 后 要 指出 的 是 ,有 一 些 在 线 正则 表 
达 式 编写 网 站 拥有 十 分 用 户 友 好 的 UI 和 方便 随时 查看 的 语法 说 明 , 如 果 需 要 编写 一 
个 正则 表达 式 ,不 妨 先 在 网 站 上 试 试 效 果 。“https://regex101. com/” 就 是 其 中 一 个 


不 错 的 工具 网 站 ( 见 图 A-3) ,结合 这 样 的 在 线 网 站 练习 正则 表达 式 便于 用 户 更 好 地 


掌握 正则 表达 式 的 使 用 。 


‘SWITCH TO UNT TESTS + 


MATCH INFORMATION 


图 A-3 ”regex101 网 站 的 界面 
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